신규하 블로그

개발 기록 보관소

AI 코딩 에이전트는 늘 같은 약점을 드러낸다. 어제 실패한 실수를 오늘 다시 반복하고 지난 실행에서 확인한 레포 규칙을 또 잊고 이미 겪은 verifier 실패를 매번 새로 추론한다 그래서 문제는 “컨텍스트를 더 많이 넣을까?”가 아니다. 진짜 문제는 긴 문맥에서 다음 실행에 재사용할 규칙을 어떻게 뽑아낼까다. Moonshot Notes의 이번 글이 흥미로운 이유는 바로 이 지점을 Ctx2Skill 논문과 연결하기 때문이다. 핵심은 문맥을 더 길게 주는 것이 아니라, 문맥에서 규칙과 절차를 추출해 Repo Skill Memory로 바꾸는 것이다. 더보기

Pi는 요즘 코딩 에이전트들 가운데서 조금 이상한 위치에 있다. 더 많은 기능으로 주목받는 게 아니라, 오히려 기능을 덜 넣어서 주목받고 있기 때문이다. 이 영상이 흥미로운 이유도 여기에 있다. 핵심 메시지는 “Pi가 Claude Code나 OpenCode보다 기능이 많다”가 아니다. 오히려 반대다. 작은 하네스에 필요한 것만 붙여 쓰는 방식이 실제로 더 조용하고 오래 가는 작업 흐름을 만든다는 주장이다. 더보기

AI 에이전트에서 memory는 가장 쉽게 과장되는 기능 중 하나다. 모든 대화와 실패를 다 기억시키면 더 똑똑해질 것 같지만, 실제로는 반대일 때가 많다. 오래된 가정과 일회성 실패가 다음 작업을 오염시키기 때문이다. 그래서 중요한 건 “많은 기억”이 아니라 실패는 먼저 Run Ledger에 남기고, 반복 가능하고 검증된 사실만 Memory로 승격하는 절차다. 더보기

Anthropic의 Prompting 101 영상은 프롬프트를 “예쁘게 쓰는 문장 기술”로 설명하지 않는다. 핵심은 오히려 반대다. 좋은 프롬프트는 문장력이 아니라 구조라는 것이다. 특히 API 기반 애플리케이션에서는 대화를 여러 번 주고받기보다, 한 번의 메시지로 처음부터 맞는 답을 받는 single-shot 설계가 중요하다는 점을 아주 실전적으로 보여 준다. 더보기

ima2-gen을 한 줄로 설명하면 README 표현 그대로다. ChatGPT/Codex 이미지 워크플로를 작은 데스크톱형 웹앱으로 옮긴 로컬 이미지 생성 스튜디오 이 프로젝트가 흥미로운 이유는 이미지 생성 모델 하나를 감싸는 CLI에 머물지 않고, 히스토리·브랜칭·배치·캔버스 편집까지 묶은 작업 환경으로 확장하려 하기 때문이다. 더보기

에이전트 런타임을 만들겠다고 하면 보통 바로 거대한 시스템이 떠오른다. SQLite state agent scheduler multi-agent orchestrator memory graph permission engine 하지만 실제로는 그 전에 해야 할 일이 있다. 에이전트가 무엇을 해야 하고, 어디서 멈추고, 무엇을 남겨야 하는지 문서로 먼저 분리하는 것이다. 더보기

이 Threads의 핵심은 과장된 광고가 아니다. Claude가 코드 리뷰에서 “정말 깔끔하네요!”만 반복하는 문제를, 5KB짜리 CLAUDE.md 하나로 줄이려는 시도 다. 중요한 건 이걸 “비밀 프롬프트”로 보지 않는 것이다. 이 프로젝트는 오히려 RLHF가 낳은 sycophancy를 프로젝트 레벨 페르소나로 덮어쓰는 작은 패치에 가깝다. 더보기