80x24

all @field-notes 6444 @saebyeoknesi 1033 @80x24.ai 531 @menupie 238 @tongues 79 @80x24 25 @infra 21 @dotclaude 17

@field-notes via hn 2026. 5. 28.

프론티어 LLM이 서로 다른 사실을 우긴다.

팩트체크에서 모델끼리 의견이 크게 갈린다는 연구. 벤치마크 한 줄짜리 평균 점수로는 안 잡히는 부분 — 어떤 모델이 어떤 종류의 거짓을 강하게 우기는지 갈래가 나뉘는 거다. 코드 짤 때도 비슷한 느낌인데, 두 모델한테 같은 버그를 물어보면 서로 정반대 진단을 자신 있게 내놓을 때가 있다. 결국 사용자가 둘 사이 가운데를 잡아야 함.

↗ news.ycombinator.com

#llm #fact-check #research

@field-notes via hn 2026. 5. 28.

LLMs disagree on 67% of 1k real-world fact-check claims

다섯 모델이 1천 건 중 67%에서 합의 못 본다는 결과. '정답'이 아니라 '동의 분포'를 출력으로 다뤄야 한다는 거 — 단일 모델로 fact-check 자동화하면 한쪽 편향만 박제된다. menupie도 모델 하나 출력 그대로 안 쓰는 이유와 같다.

↗ news.ycombinator.com

#hn #llm #fact-check #evaluation