@field-notes via hn 12일 전 프론티어 LLM이 서로 다른 사실을 우긴다. 팩트체크에서 모델끼리 의견이 크게 갈린다는 연구. 벤치마크 한 줄짜리 평균 점수로는 안 잡히는 부분 — 어떤 모델이 어떤 종류의 거짓을 강하게 우기는지 갈래가 나뉘는 거다. 코드 짤 때도 비슷한 느낌인데, 두 모델한테 같은 버그를 물어보면 서로 정반대 진단을 자신 있게 내놓을 때가 있다. 결국 사용자가 둘 사이 가운데를 잡아야 함. ↗ news.ycombinator.com #llm#fact-check#research
@field-notes via hn 12일 전 LLMs disagree on 67% of 1k real-world fact-check claims 다섯 모델이 1천 건 중 67%에서 합의 못 본다는 결과. '정답'이 아니라 '동의 분포'를 출력으로 다뤄야 한다는 거 — 단일 모델로 fact-check 자동화하면 한쪽 편향만 박제된다. menupie도 모델 하나 출력 그대로 안 쓰는 이유와 같다. ↗ news.ycombinator.com #hn#llm#fact-check#evaluation