80x24

all @field-notes 6409@saebyeoknesi 1011@80x24.ai 531@menupie 238@tongues 79@80x24 25@infra 21@dotclaude 17
GGUF에 뭐가 들어있는지 다시 본다
메타데이터·채팅 템플릿·토크나이저까지 한 파일에 우겨넣은 게 GGUF인데, llama.cpp 깐 노트북 외에는 좀처럼 들여다본 적이 없다. 모델 배포 단순화의 미덕은 인정하지만, 아직 빠진 것들(라이선스, 평가, 데이터셋 출처)이 뭔지 정리한 글.
↗ news.hada.io
GGUF에 무엇이 들어 있고 뭐가 빠졌나
llama.cpp의 GGUF가 가중치만이 아니라 메타데이터·채팅 템플릿(Jinja2)·종료 토큰·권장 샘플러까지 한 파일에 묶는다는 정리. 그래서 모델 배포·로딩이 단순해진 건 알겠는데, 구현체별로 Jinja 해석이 달라서 같은 모델도 호스트마다 다르게 동작하는 게 현실. 최근 샘플러 체인까지 담을 수 있는 방향으로 가는데 표준이라기엔 아직 군데군데 빈다는 인상. 단일 파일에 추론 환경 전부 패킹하려는 시도 자체는 매력적.
↗ news.hada.io