Posts

vLLM이 Ollama보다 빠른 이유: PagedAttention, Continuous Batching, 그리고 벤치마크 해석

2026년 03월 21일 22시 25분 AI

로컬 LLM을 이야기할 때 대부분의 출발점은 Ollama입니다. 설치가 간단하고 바로 써볼 수 있기 때문입니다. 그런데 이번 영상은 질문 자체를 바꿉니다. 내 PC에서 모델이 돌아가느냐 가 아니라, 여러 요청을 계속 받아내는 서빙 엔진으로도 효율적인가 를 봐야 한다는 것입니다. 영상은 vLLM의 강점이 바로 그 지점, 즉 KV Cache 메모리 관리와 다중 요청 스케줄링에서 나온다고 설명합니다. 근거 영상 중요한 것은 숫자를 그대로 외우는 것이 아니라, 왜 어떤 환경에서는 차이가 거의 없고 어떤 환경에서는 크게 벌어지는지 를 이해하는 것입니다. 영상 도입부는 Red Hat의 2025년 8월 8일 벤치마크를 인용해 vLLM의 높은 TPS와 낮은 지연시간을 언급하지만, 뒤에서 보여주는 자체 테스트에서는 단일 요청에서는 큰 차이가 없고 동시 요청 환경에서 우위가 커진다고 정리합니다. 이 글은 바로 그 차이를 만든 구조를 따라가 보려는 글입니다. 근거 영상 더보기

GPT-5.4로 더 좋은 프런트엔드를 뽑아내는 방법

2026년 03월 21일 21시 10분 Web

2026년 3월 20일 OpenAI Developers에 올라온 Designing delightful frontends with GPT-5.4 의 핵심은 단순히 “GPT-5.4가 더 예쁜 화면을 만든다"가 아닙니다. 더 정확히는, GPT-5.4는 이미지를 보고 판단하고, UI를 구현하고, 다시 실행해 검증하는 루프 가 이전보다 훨씬 자연스러워졌고, 그 루프를 살리는 프롬프트 구조가 따로 있다는 이야기입니다. 이 글은 같은 달 3월 5일 공개된 Introducing GPT-5.4 와 함께 읽으면서, OpenAI가 왜 시각 참조, 디자인 제약, 낮은 reasoning, 실제 콘텐츠, Playwright 검증을 한 세트로 묶어 이야기하는지 정리합니다. 포인트는 “길게 지시하면 잘 만든다"가 아니라, 좋은 프런트엔드가 나오도록 작업면 자체를 설계하는 것 입니다. 더보기

browser-use는 AI 에이전트에게 웹을 어떻게 열어 주는가

2026년 03월 21일 21시 01분 Developer Tools

2026년 3월 21일 기준으로 browser-use 의 GitHub 저장소 페이지는 81.6k stars 를 보여 주고, pyproject.toml 과 PyPI 메타데이터는 최신 공개 버전을 0.12.2, 지원 Python 범위를 >=3.11,<4.0 으로 적고 있습니다. README가 이 프로젝트를 짧게 설명하는 문장은 "Make websites accessible for AI agents" 인데, 이 한 줄이 의외로 정확합니다. browser-use 는 단순한 브라우저 매크로나 Playwright 래퍼가 아니라, 웹페이지의 상태를 LLM이 판단할 수 있는 작업 공간으로 바꾸고, 그 판단을 다시 브라우저 액션으로 연결하는 계층 을 만들려는 프로젝트입니다. 더보기

Claude Code Skills는 프롬프트가 아니라 운영 레이어다

2026년 03월 21일 20시 51분 Developer Tools

2026년 3월 18일 KST, Anthropic의 Thariq는 X Article “Lessons from Building Claude Code: How We Use Skills"를 공개했습니다. 이 글이 흥미로운 이유는 스킬을 단순한 프롬프트 묶음이나 SKILL.md 파일 하나로 설명하지 않고, 지식 배포, 검증 자동화, 컨텍스트 절약, 팀 운영 을 한데 묶는 계층으로 다루기 때문입니다. 공식 가이드와 함께 읽어보면 더 선명해집니다. Claude Code에서 스킬은 “좋은 지침"이 아니라, 폴더 구조와 훅, 스크립트, 참조 문서, 상태 저장, 배포 방식까지 포함하는 작은 운영 시스템에 가깝습니다. 더보기

Claude Code `/btw`로 토큰 비용 줄이는 법

2026년 03월 21일 17시 53분 Developer Tools

Claude Code를 쓰다 보면 큰 작업을 진행하는 중간에 “이 함수 어디서 더 쓰이지?”, “이 옵션 타입이 정확히 뭐였지?” 같은 옆길 질문이 자꾸 생깁니다. 많은 사람이 이때 새 터미널을 열어 별도 세션을 띄우는데, 이 영상이 지적하는 문제는 바로 그 습관 자체가 생각보다 비싸다는 점입니다. /btw 는 이 작은 옆길 질문을 위해 메인 흐름을 버리지 말라고 제안하는 기능입니다.12 더보기

Claude Code에서 기능보다 먼저 그려야 할 것: 조직도 5문서 운영법

2026년 03월 21일 10시 48분 AI

justopen.ai의 짧은 Threads 포스트는 Claude Code를 잘 쓰는 순서를 아주 날카롭게 뒤집습니다. 많은 사람이 먼저 “무슨 기능이 있지?“를 묻지만, 이 포스트의 요지는 그 질문 자체가 이미 늦었다는 데 있습니다. 먼저 해야 하는 일은 기능 탐색이 아니라 누가 어떤 판단을 맡고, 그 판단이 어떤 문서로 남아야 하는지 를 정하는 것입니다. 더보기

Everything Claude Code 해부: 설정 모음이 아니라 에이전트 하니스 시스템인 이유

2026년 03월 21일 10시 48분 Developer Tools

everything-claude-code를 처음 보면 거대한 설정 저장소처럼 보입니다. 하지만 README가 이 저장소를 설명하는 방식은 다릅니다. 이 프로젝트는 “AI agent harnesses를 위한 performance optimization system"이며, 단순한 설정 묶음이 아니라 스킬, 훅, 메모리 최적화, 연속 학습, 보안 스캐닝, 리서치 우선 개발 방식을 함께 담은 운영 체계에 가깝습니다. 더보기