Chain-of-Thought(CoT) 는 정확도를 올리지만, 추론 토큰이 길어질수록 지연과 비용이 함께 증가합니다. 이 논문은 이 문제를 “모델 가중치"가 아니라 “시스템 프롬프트"에 추론 규칙을 컴파일하는 방식으로 풀며, 이를 Prompt-Level Distillation(PLD) 이라고 정의합니다 (근거: https://arxiv.org/html/2602.21103v1#S1, https://arxiv.org/html/2602.21103v1#S3).
더보기