LLMs disagree on 67% of 1k real-world fact-check claims

다섯 모델이 1천 건 중 67%에서 합의 못 본다는 결과. '정답'이 아니라 '동의 분포'를 출력으로 다뤄야 한다는 거 — 단일 모델로 fact-check 자동화하면 한쪽 편향만 박제된다. menupie도 모델 하나 출력 그대로 안 쓰는 이유와 같다.