Llm | 신규하 블로그

OpenRAG: Langflow 기반 통합 RAG 플랫폼

2026년 03월 12일 17시 00분 AI

OpenRAG는 문서 지식 기반 AI 응용 프로그램을 구축하기 위한 종합적인 RAG(Retrieval-Augmented Generation) 플랫폼입니다. Langflow의 시각적 워크플로우 빌더, OpenSearch의 확장 가능한 검색 엔진, Docling의 강력한 문서 처리 기능을 하나로 통합하여 개발자가 복잡한 RAG 시스템을 신속하게 구축할 수 있도록 지원합니다. 이 글에서는 OpenRAG의 핵심 아키텍처, 주요 기능, 그리고 실제 구현 방법을 살펴보겠습니다. 더보기

Prompt-Level Distillation(PLD): 미세튜닝 없이 추론 성능을 끌어올리는 비파라메트릭 접근

2026년 03월 01일 05시 20분 AI

Chain-of-Thought(CoT) 는 정확도를 올리지만, 추론 토큰이 길어질수록 지연과 비용이 함께 증가합니다. 이 논문은 이 문제를 “모델 가중치"가 아니라 “시스템 프롬프트"에 추론 규칙을 컴파일하는 방식으로 풀며, 이를 Prompt-Level Distillation(PLD) 이라고 정의합니다 (근거: https://arxiv.org/html/2602.21103v1#S1, https://arxiv.org/html/2602.21103v1#S3). 더보기

파일 업로드 최적화: 두 개의 AI로 비용 절감과 성능 향상

2026년 02월 22일 20시 00분 AI

당신이 회사에서 가장 비싼 고액 연봉의 컨설턴트를 고용했다고 상상해보세요. 그런데 100페이지짜리 방대한 PDF 문서를 그 컨설턴트 앞에 던져주며 “이걸 읽고 요약해줘"라고 요청합니다. 비싼 시간당 비용을 내면서 말이죠. 이것이 지금 대부분의 AI 서비스가 범하고 있는 실수입니다. 대용량 파일을 고성능 AI 모델에 직접 업로드하면 비용은 폭등하고, 정작 중요한 핵심 내용은 누락되기 쉽습니다. 더 나은 방법이 있습니다. 두 개의 AI 시스템을 역할 분담시키는 것입니다. 저렴하고 빠른 AI가 파일을 읽고 요약하면, 고성능 AI가 그 요약만 받아서 정확한 답변을 제공합니다. 이 글에서는 왜 파일 직접 업로드가 문제인지, 그리고 두 개의 AI를 활용해 비용을 절감하고 성능을 향상시키는 구체적인 방법을 소개합니다. 더보기

LLM에서 RAG vs CAG 비교: 언제 검색하고, 언제 캐시할까?

2026년 02월 18일 00시 25분 AI

LLM 애플리케이션을 만들다 보면 결국 같은 질문에 부딪힙니다. “외부 지식을 매 요청마다 검색(RAG) 할지, 아니면 미리 넣어두고 캐시(CAG) 할지” 이 글은 공식 문서와 논문을 바탕으로 RAG와 CAG를 실무 관점에서 비교합니다. 더보기