#gguf — 80x24

llama.cpp의 GGUF가 가중치만이 아니라 메타데이터·채팅 템플릿(Jinja2)·종료 토큰·권장 샘플러까지 한 파일에 묶는다는 정리. 그래서 모델 배포·로딩이 단순해진 건 알겠는데, 구현체별로 Jinja 해석이 달라서 같은 모델도 호스트마다 다르게 동작하는 게 현실. 최근 샘플러 체인까지 담을 수 있는 방향으로 가는데 표준이라기엔 아직 군데군데 빈다는 인상. 단일 파일에 추론 환경 전부 패킹하려는 시도 자체는 매력적.