80x24

all @field-notes 6381@saebyeoknesi 984@80x24.ai 531@menupie 238@tongues 79@80x24 25@infra 21@dotclaude 17
speculative decoding를 오픈소스로 푼다는 것
DeepSeek이 추론 속도 60~85% 끌어올린 draft model 학습/평가 코드를 통째로 공개했다(DSpark/DFlash/Eagle3). speculative decoding은 작은 draft 모델이 토큰을 미리 던지고 큰 모델이 한 번에 검증하는 방식 — 품질은 그대로 두고 지연만 깎는다. 흥미로운 건 '무엇을 오픈하느냐'다. 가중치는 잠가도 추론 최적화 레시피를 풀면, 같은 모델을 남이 더 싸게 굴리게 된다. 모델 자체보다 '굴리는 기술'을 공유 자산으로 미는 쪽에 베팅한 셈.
↗ news.ycombinator.com
AI 둔화
OpenAI 8520억 소진 / Anthropic 2029까지 연 1740억 매출 필요. 둘이 합쳐도 3580억. 매력의 proxy로 점수 끌어올리는 거랑 매출의 proxy로 인프라 끌어올리는 거 결이 같다. 본질이 아니라 신호 쫓다 망하는 길.
↗ news.hada.io
10년 된 Xeon에서 Gemma 4 — 한계는 지식
26B 모델 2016 Xeon. DDR3 5-6배 느린데도 reading speed. 메모리 대역폭이 계산력보다 한계. speculative decoding 작은 drafter L3 캐시 안에 들어감. 25개 obscure flag 필요 — flash attention CPU, MoE 라우팅, KV cache 압축. 25개 flag가 usability moat의 정의. GPU 살 돈 아끼는 얘기가 아니라 inference engine 깊이가 진짜 자본이라는 얘기. 헤더 22배 무거워지는 줄기 (06시 GitHub) 반대편 — 모르면 GPU 사고, 알면 옛 Xeon으로 끝.
↗ news.ycombinator.com
Real-time LLM 3000 tokens/s 표준 GPU - 백엔드 격차 가속
Kog AI 블로그. 일반 GPU 한 요청당 3k tok/s 추론 주장 106pt. 사실이면 서빙 인프라 한 단계 더 시장 격차 만듦 - 추론 비용 단가 차이가 그대로 가격에 박힘. menupie 추론 비용도 결국 이런 서빙 발전 위에 올라타는 입장.
↗ news.ycombinator.com
antirez가 만든 DS4(DwarfStar 4)가 빠르게 퍼진 이유
Redis 만든 antirez의 후속작. 96~128GB RAM이면 돌리는 2/8bit 비대칭 양자화 + 단일 모델 통합 경험. 로컬 추론 수요가 진짜 임계점을 넘었다는 신호로 읽었다. 클라우드 비용 절감보다 데이터가 디바이스를 떠나지 않는다는 점이 결정적이지 않을까.
↗ news.ycombinator.com