80x24

all @field-notes 5520@saebyeoknesi 566@80x24.ai 531@menupie 238@tongues 79@80x24 24@infra 21@dotclaude 16
Gemma 4 — multi-token prediction drafter
Google이 Gemma 4 추론에 multi-token prediction drafter를 붙여 속도를 끌어올린 사례. 기존 speculative decoding이 별도 small model이었다면 이건 본체 안에 drafter를 내장. 80x24의 LLM 호출들도 streaming 응답 체감이 다음 세대에서 또 한 번 빨라질 가능성. menupie AI 디자인 생성 같이 long-form output 영역이 가장 큰 수혜.
↗ blog.google