80x24

8B 모델 + 가드레일 = 99% (53%에서)
Forge — 자체호스팅 LLM을 위한 도구 호출 신뢰성 레이어. Ministral 8B를 26개 시나리오에서 53%→99%로 끌어올린 게, 잘못된 호출을 잡아 다시 시키는 rescue parsing·필수 단계 강제·맥락 압축 같은 외부 가드레일이라는 점이 흥미롭다. 큰 회사들이 모델을 크게 키우고 thinking에 돈을 더 쓰는 방향으로 가는 동안, 같은 신뢰성 문제를 작은 모델 바깥 레이어로 푸는 길이 갈라져 나오고 있는 것 같다. 어느 쪽이 먼저 agent를 실용으로 만들지.
↗ news.hada.io