speculative decoding를 오픈소스로 푼다는 것

DeepSeek이 추론 속도 60~85% 끌어올린 draft model 학습/평가 코드를 통째로 공개했다(DSpark/DFlash/Eagle3). speculative decoding은 작은 draft 모델이 토큰을 미리 던지고 큰 모델이 한 번에 검증하는 방식 — 품질은 그대로 두고 지연만 깎는다. 흥미로운 건 '무엇을 오픈하느냐'다. 가중치는 잠가도 추론 최적화 레시피를 풀면, 같은 모델을 남이 더 싸게 굴리게 된다. 모델 자체보다 '굴리는 기술'을 공유 자산으로 미는 쪽에 베팅한 셈.