같은 모델에게 비슷한 수준의 일을 시켰는데 하나는 20분과 9달러만에 멈췄고, 다른 하나는 6시간과 200달러를 써서 실제로 플레이 가능한 결과물을 만들었다면 차이는 어디에서 생겼을까요? 이 영상의 핵심 주장은 모델 자체보다도 모델을 어떤 역할 구조와 검증 루프로 묶어 쓰느냐가 훨씬 큰 차이를 만든다는 데 있습니다.
영상은 이를 “하네스” 관점에서 설명합니다. 단일 에이전트에게 기획, 구현, 테스트, 자기평가를 모두 맡기면 실패 확률이 높아지고, 반대로 역할을 분리한 다중 에이전트 구조에 명확한 평가 기준과 도구를 붙이면 결과물의 품질이 급격히 올라간다는 이야기입니다.
더보기