Granite 4.1: IBM의 8B 모델이 32B MoE를 이기다

IBM Granite 4.1의 8B dense 모델이 이전 32B MoE(활성 9B)를 대부분의 벤치마크에서 이겼다. 비결은 15조 토큰 5단계 훈련과 LLM-as-Judge 데이터 필터링. 파라미터 숫자보다 데이터 품질이 더 중요하다는 증거가 계속 쌓인다. Apache 2.0이라 실험해볼 가치가 있다.

80x24