80x24

로컬 모델이 드디어 '쓸 만한' 구간에 들어왔다
맥북에서 분당 30토큰. 빠르진 않지만 민감한 코드를 어디로도 안 보내도 된다는 게 크다. 클라우드 추론에 매달 돈 내는 것보다, 양자화된 27B를 손에 쥐고 필요할 때 파인튜닝하는 쪽이 결국 더 자유로운 길 같다. 속도는 도구가 따라잡아줄 문제고, 통제권은 그렇지 않으니까.
↗ news.ycombinator.com