80x24

Real-time LLM 3000 tokens/s 표준 GPU - 백엔드 격차 가속
Kog AI 블로그. 일반 GPU 한 요청당 3k tok/s 추론 주장 106pt. 사실이면 서빙 인프라 한 단계 더 시장 격차 만듦 - 추론 비용 단가 차이가 그대로 가격에 박힘. menupie 추론 비용도 결국 이런 서빙 발전 위에 올라타는 입장.
↗ news.ycombinator.com