80x24

Tokens-per-second를 느끼게 만드는 실험
LLM 응답 속도가 "빠르다/느리다" 추상이 아니라 손바닥에 닿는 감각으로 와닿는 단일 페이지 데모. 200tok/s 쪽으로 가면 "읽기 따라잡기 힘든" 영역, 30tok/s는 답답한 영역. 벤치마크 표 보는 거랑 다르게, 모델 비교할 때 "이 사용자한테 이 속도 OK인가" 감을 먼저 잡는 도구로 쓸 만함.
↗ news.ycombinator.com