GitHub Copilot은 월 10달러, Cursor Pro는 월 20달러입니다. Ollama v0.18.3은 같은 일을 내 컴퓨터에서, VS Code 안에서, 구독료 0원으로 합니다.
ollama launch vscode 명령어 한 줄이면 채팅 사이드바에서 Qwen3-Coder, DeepSeek, Gemma3 같은 오픈소스 모델을 바로 쓸 수 있습니다. 코드는 외부 서버로 나가지 않고, 인터넷이 끊겨도 동작합니다.
Sources
Ollama란 무엇인가
Ollama는 세계에서 가장 많이 쓰이는 로컬 AI 실행 도구입니다. LLM 모델을 내 컴퓨터에서 직접 실행할 수 있게 해줍니다.
| 지표 | 수치 |
|---|---|
| GitHub 스타 | 166,000개 |
| 월간 다운로드 | 5,200만 회 (2026년 1분기) |
| 연동 앱/서비스 | 40,000개 이상 (Claude Code, n8n, LangChain 등) |
| 가격 | 완전 무료 (오픈소스) |
기존에는 Ollama를 쓰려면 터미널에서 직접 대화해야 했습니다. 코딩 중에 터미널로 왔다 갔다 하는 것은 불편합니다. v0.18.3부터는 VS Code 안에서 바로 Ollama 모델을 사용할 수 있습니다.
flowchart TD
A["기존 방식"]
B["유료 AI 코딩 도구
Copilot $10/월, Cursor $20/월"]
C["코드가 외부 서버로 전송"]
D["인터넷 필수"]
A2["v0.18.3 이후"]
B2["Ollama + VS Code
완전 무료"]
C2["코드가 내 컴퓨터 안에서만 처리"]
D2["오프라인 동작 가능"]
A --> B --> C --> D
A2 --> B2 --> C2 --> D2
classDef old fill:#ffc8c4,color:#333
classDef new fill:#c0ecd3,color:#333
class A,B,C,D old
class A2,B2,C2,D2 newv0.18.3 핵심: VS Code 네이티브 통합
이번 업데이트의 핵심은 VS Code의 기본 모델 관리 기능에 Ollama가 직접 연결된다는 점입니다. 별도 확장 프로그램 없이도 채팅 사이드바에서 Ollama 모델을 선택하고 바로 사용할 수 있습니다.
flowchart TD
A["VS Code 채팅 사이드바"]
B["모델 드롭다운"]
C["Manage Models 클릭"]
D["Ollama 설치 모델 자동 표시"]
E1["Gemma3 4B
(로컬)"]
E2["Qwen3-Coder 30B
(로컬)"]
E3["DeepSeek v3.1 671B
(Ollama 클라우드)"]
F["코딩 질문 / 코드 리뷰
VS Code 안에서 바로"]
A --> B --> C --> D
D --> E1
D --> E2
D --> E3
E1 --> F
E2 --> F
E3 --> F
classDef ui fill:#c5dcef,color:#333
classDef model fill:#e0c8ef,color:#333
classDef action fill:#c0ecd3,color:#333
class A,B,C,D ui
class E1,E2,E3 model
class F action모델 드롭다운에서 Manage Models를 클릭하면 Ollama에서 내려받은 모델이 자동으로 표시됩니다. 원하는 모델을 체크하면 즉시 사용 가능합니다.
5분 안에 설정 완료하는 방법
시작하는 방법은 3단계입니다.
1단계 — Ollama 설치
Mac/Linux는 터미널에서 한 줄을 실행합니다. Windows는 ollama.com에서 설치 파일을 받습니다.
curl -fsSL https://ollama.com/install.sh | sh
2단계 — AI 모델 다운로드
코딩용 모델을 하나 받아둡니다.
# 코딩 전문 모델 (30B, 약 18GB 저장공간 필요)
ollama pull qwen3-coder:30b
# 가벼운 범용 모델 (4B, 약 2.5GB 저장공간 필요)
ollama pull gemma3:4b
3단계 — VS Code에서 연결
ollama launch vscode
이 명령어 한 줄이면 VS Code가 열리면서 Ollama가 자동으로 연결됩니다. 수동으로 연결하려면 채팅 사이드바 → 모델 드롭다운 → Manage Models → Provider: Ollama를 선택합니다.
flowchart LR
A["Ollama 설치
curl 한 줄"] --> B["모델 pull
gemma3:4b 등"]
B --> C["ollama launch vscode
한 줄 실행"]
C --> D["VS Code 채팅에서
AI 코딩 시작"]
classDef step fill:#c5dcef,color:#333
classDef done fill:#c0ecd3,color:#333
class A,B,C step
class D done어떤 모델을 골라야 할까
용도와 RAM 사양에 따라 모델을 선택합니다.
flowchart TD
Q["내 RAM은?"]
Q --> R8["8GB"]
Q --> R16["16GB 이상"]
R8 --> M1["Gemma3 4B
용량 약 2.5GB
간단한 코드 설명, 버그 찾기,
함수 작성"]
R16 --> M2["Qwen3-Coder 30B
용량 약 18GB
복잡한 로직 구현,
리팩토링, 테스트 코드"]
R16 --> M3["DeepSeek v3.1 671B
Ollama 클라우드 사용
대규모 코드베이스 분석,
복잡한 아키텍처 설계"]
classDef req fill:#fde8c0,color:#333
classDef model fill:#c0ecd3,color:#333
class Q,R8,R16 req
class M1,M2,M3 modelGemma3 4B — Google이 만든 오픈소스 모델. 8GB RAM이면 충분합니다. 입문용으로 가장 적합합니다.
Qwen3-Coder 30B — 현재 오픈소스 코딩 모델 중 최상위 성능. 16GB RAM 이상 권장합니다. 복잡한 코드 작업에 적합합니다.
DeepSeek v3.1 671B — 내 컴퓨터에서 직접 돌리기엔 너무 크지만, Ollama 클라우드를 통해 사용할 수 있습니다. 대규모 작업에 활용합니다.
KV 캐시 공유: 연속 질문이 빨라지는 원리
v0.18.3의 또 다른 핵심 업데이트입니다. KV(Key-Value) 캐시 공유는 AI에게 같은 프로젝트에 대해 연속으로 질문할 때 이전 대화의 맥락을 재활용하는 기능입니다.
flowchart TD
subgraph "KV 캐시 없는 경우 (이전)"
A1["질문 1: 이 함수가 뭘 하는지 설명해줘"]
B1["AI: 전체 코드 처음부터 처리"]
C1["답변 생성"]
D1["질문 2: 에러 처리를 추가해줘"]
E1["AI: 전체 코드 다시 처음부터 처리"]
F1["답변 생성 (느림)"]
A1 --> B1 --> C1 --> D1 --> E1 --> F1
end
subgraph "KV 캐시 공유 (v0.18.3)"
A2["질문 1: 이 함수가 뭘 하는지 설명해줘"]
B2["AI: 전체 코드 처리 + 캐시 저장"]
C2["답변 생성"]
D2["질문 2: 에러 처리를 추가해줘"]
E2["AI: 캐시에서 맥락 재활용"]
F2["답변 생성 (빠름)"]
A2 --> B2 --> C2 --> D2 --> E2 --> F2
end
classDef slow fill:#ffc8c4,color:#333
classDef fast fill:#c0ecd3,color:#333
class A1,B1,C1,D1,E1,F1 slow
class A2,B2,C2,D2,E2,F2 fast
“AI가 처음부터 다시 코드를 읽지 않고 이미 이해한 맥락 위에서 바로 답합니다. Apple Silicon(M1/M2/M3/M4) 맥북에서 특히 효과적입니다.”
프로젝트가 클수록 이 성능 차이가 체감상 두드러집니다. 같은 파일에 대한 후속 질문을 반복하는 일반적인 코딩 작업에서 응답 속도가 눈에 띄게 향상됩니다.
더 강력하게: Continue 확장 프로그램
VS Code 기본 연동으로도 채팅 기반 코딩이 가능하지만, Continue 확장 프로그램을 설치하면 자동 코드 완성(탭 키로 제안 수락)까지 사용할 수 있습니다.
flowchart TD
A["Ollama + VS Code 기본 연동"]
B["Continue 확장 프로그램 추가"]
A --> F1["채팅 기반 코딩 질문"]
A --> F2["모델 선택 및 교체"]
B --> G1["자동 코드 완성
(탭 키로 수락)"]
B --> G2["@codebase: 프로젝트 전체 코드 검색"]
B --> G3["@docs: 공식 문서 참조 답변"]
B --> G4["모든 처리 로컬에서 완료"]
classDef basic fill:#c5dcef,color:#333
classDef advanced fill:#c0ecd3,color:#333
class A,F1,F2 basic
class B,G1,G2,G3,G4 advancedContinue 설정 파일 예시입니다.
{
"models": [{
"title": "Qwen3-Coder",
"provider": "ollama",
"model": "qwen3-coder:30b"
}],
"tabAutocompleteModel": {
"title": "코드 자동 완성",
"provider": "ollama",
"model": "gemma3:4b"
}
}
채팅(고품질 응답)과 자동 완성(빠른 응답)에 서로 다른 모델을 할당할 수 있습니다. 무거운 모델은 채팅에, 가벼운 모델은 실시간 자동 완성에 쓰는 방식이 실용적입니다.
핵심 요약
| 항목 | 내용 |
|---|---|
| 업데이트 | Ollama v0.18.3 — VS Code 네이티브 통합 |
| 핵심 명령어 | ollama launch vscode |
| 지원 모델 | Gemma3 4B, Qwen3-Coder 30B, DeepSeek v3.1 671B 등 |
| 최소 사양 | 8GB RAM (Gemma3 4B) / 16GB+ (Qwen3-Coder 30B) |
| 주요 신기능 | KV 캐시 공유 — 연속 질문 시 응답 속도 향상, Apple Silicon 특히 효과적 |
| 비용 | 완전 무료 |
| 보안 | 코드가 외부 서버로 나가지 않음, 오프라인 동작 가능 |
| 확장 옵션 | Continue 확장으로 자동 코드 완성, @codebase, @docs 지원 |
결론
Ollama v0.18.3은 “로컬 AI = 터미널만 가능"이라는 고정관념을 깼습니다.
VS Code 채팅 사이드바에서 클릭 한 번으로 모델을 선택하고, ollama launch vscode 한 줄로 설정이 끝나는 경험은 유료 AI 코딩 도구와 실질적으로 차이가 없습니다.
회사 코드 보안이 걱정되거나, AI 도구 구독료를 줄이고 싶거나, 오프라인 환경에서 코딩해야 한다면 — 지금 바로 시작해볼 수 있습니다.