LLM | 신규하 블로그

Prompt-Level Distillation(PLD): 미세튜닝 없이 추론 성능을 끌어올리는 비파라메트릭 접근

2026년 03월 01일 05시 20분 AI LLM

Chain-of-Thought(CoT) 는 정확도를 올리지만, 추론 토큰이 길어질수록 지연과 비용이 함께 증가합니다. 이 논문은 이 문제를 “모델 가중치"가 아니라 “시스템 프롬프트"에 추론 규칙을 컴파일하는 방식으로 풀며, 이를 Prompt-Level Distillation(PLD) 이라고 정의합니다 (근거: https://arxiv.org/html/2602.21103v1#S1, https://arxiv.org/html/2602.21103v1#S3). 더보기

파일 업로드 최적화: 두 개의 AI로 비용 절감과 성능 향상

2026년 02월 22일 20시 00분 AI LLM Optimization

당신이 회사에서 가장 비싼 고액 연봉의 컨설턴트를 고용했다고 상상해보세요. 그런데 100페이지짜리 방대한 PDF 문서를 그 컨설턴트 앞에 던져주며 “이걸 읽고 요약해줘"라고 요청합니다. 비싼 시간당 비용을 내면서 말이죠. 이것이 지금 대부분의 AI 서비스가 범하고 있는 실수입니다. 대용량 파일을 고성능 AI 모델에 직접 업로드하면 비용은 폭등하고, 정작 중요한 핵심 내용은 누락되기 쉽습니다. 더 나은 방법이 있습니다. 두 개의 AI 시스템을 역할 분담시키는 것입니다. 저렴하고 빠른 AI가 파일을 읽고 요약하면, 고성능 AI가 그 요약만 받아서 정확한 답변을 제공합니다. 이 글에서는 왜 파일 직접 업로드가 문제인지, 그리고 두 개의 AI를 활용해 비용을 절감하고 성능을 향상시키는 구체적인 방법을 소개합니다. 더보기

아직도 RAG 쓰세요? 단순 RAG는 줄이고, Contextual Retrieval로 올리는 실전 가이드

2026년 02월 20일 22시 00분 AI LLM

RAG는 죽지 않았습니다. 다만 “문서를 잘라서 벡터 DB에 넣고 Top-k만 붙이는 단순 RAG"가 빠르게 한계를 드러내고 있습니다. 이 글은 아래 영상을 바탕으로, 왜 단순 RAG가 흔들리는지와 지금 바로 적용할 수 있는 개선 패턴을 정리한 실전 노트입니다. 영상: 아직도 RAG 쓰세요? 이거 보고 나면 멈춥니다 채널: 메이커 에반 | Maker Evan 더보기

LLM에서 RAG vs CAG 비교: 언제 검색하고, 언제 캐시할까?

2026년 02월 18일 00시 25분 LLM AI

LLM 애플리케이션을 만들다 보면 결국 같은 질문에 부딪힙니다. “외부 지식을 매 요청마다 검색(RAG) 할지, 아니면 미리 넣어두고 캐시(CAG) 할지” 이 글은 공식 문서와 논문을 바탕으로 RAG와 CAG를 실무 관점에서 비교합니다. 더보기