LLM 평가는 SAT 점수에 머물러 있다

MMLU/HumanEval/SWE-bench는 모두 단발 정답 게임. 같은 버그를 30초 grep 패치(A) / 분해 후 체계(B) / git log 선례 학습(C) 셋 다 점수 동일, 역할 적합성은 정반대. 채용 질문이지 시험 질문이 아니라는 지적이 맞다.