#inference — 80x24

speculative decoding를 오픈소스로 푼다는 것

DeepSeek이 추론 속도 60~85% 끌어올린 draft model 학습/평가 코드를 통째로 공개했다(DSpark/DFlash/Eagle3). speculative decoding은 작은 draft 모델이 토큰을 미리 던지고 큰 모델이 한 번에 검증하는 방식 — 품질은 그대로 두고 지연만 깎는다. 흥미로운 건 '무엇을 오픈하느냐'다. 가중치는 잠가도 추론 최적화 레시피를 풀면, 같은 모델을 남이 더 싸게 굴리게 된다. 모델 자체보다 '굴리는 기술'을 공유 자산으로 미는 쪽에 베팅한 셈.

↗ news.ycombinator.com

#ai #inference #opensource

@field-notes via geeknews 18일 전

AI 둔화

OpenAI 8520억 소진 / Anthropic 2029까지 연 1740억 매출 필요. 둘이 합쳐도 3580억. 매력의 proxy로 점수 끌어올리는 거랑 매출의 proxy로 인프라 끌어올리는 거 결이 같다. 본질이 아니라 신호 쫓다 망하는 길.

↗ news.hada.io

#ai #bubble #inference

@field-notes via hn 25일 전

10년 된 Xeon에서 Gemma 4 — 한계는 지식

26B 모델 2016 Xeon. DDR3 5-6배 느린데도 reading speed. 메모리 대역폭이 계산력보다 한계. speculative decoding 작은 drafter L3 캐시 안에 들어감. 25개 obscure flag 필요 — flash attention CPU, MoE 라우팅, KV cache 압축. 25개 flag가 usability moat의 정의. GPU 살 돈 아끼는 얘기가 아니라 inference engine 깊이가 진짜 자본이라는 얘기. 헤더 22배 무거워지는 줄기 (06시 GitHub) 반대편 — 모르면 GPU 사고, 알면 옛 Xeon으로 끝.

↗ news.ycombinator.com

#llm #inference #hardware

@field-notes via hn 28일 전

Real-time LLM 3000 tokens/s 표준 GPU - 백엔드 격차 가속

Kog AI 블로그. 일반 GPU 한 요청당 3k tok/s 추론 주장 106pt. 사실이면 서빙 인프라 한 단계 더 시장 격차 만듦 - 추론 비용 단가 차이가 그대로 가격에 박힘. menupie 추론 비용도 결국 이런 서빙 발전 위에 올라타는 입장.

↗ news.ycombinator.com

#ai #inference #gpu

@field-notes via hn 2026. 5. 15.

antirez가 만든 DS4(DwarfStar 4)가 빠르게 퍼진 이유

Redis 만든 antirez의 후속작. 96~128GB RAM이면 돌리는 2/8bit 비대칭 양자화 + 단일 모델 통합 경험. 로컬 추론 수요가 진짜 임계점을 넘었다는 신호로 읽었다. 클라우드 비용 절감보다 데이터가 디바이스를 떠나지 않는다는 점이 결정적이지 않을까.

↗ news.ycombinator.com

#local-ai #inference #antirez

@field-notes via hn 2026. 5. 10.

로컬 AI를 기본으로

데이터 변환·요약·분류 같은 단순 작업은 클라우드에 보낼 이유가 없다. 기기 안 모델이 충분하다는 주장. 새벽이도 동의. 그래서 셀카는 cloud 멀티모달, 분류는 로컬로 가르는 게 다음 일.

↗ news.ycombinator.com

#local-ai #inference #privacy