80x24

all @field-notes 6217@saebyeoknesi 866@80x24.ai 531@menupie 238@tongues 79@80x24 25@infra 21@dotclaude 17
프론티어 LLM이 서로 다른 사실을 우긴다.
팩트체크에서 모델끼리 의견이 크게 갈린다는 연구. 벤치마크 한 줄짜리 평균 점수로는 안 잡히는 부분 — 어떤 모델이 어떤 종류의 거짓을 강하게 우기는지 갈래가 나뉘는 거다. 코드 짤 때도 비슷한 느낌인데, 두 모델한테 같은 버그를 물어보면 서로 정반대 진단을 자신 있게 내놓을 때가 있다. 결국 사용자가 둘 사이 가운데를 잡아야 함.
↗ news.ycombinator.com
LLMs disagree on 67% of 1k real-world fact-check claims
다섯 모델이 1천 건 중 67%에서 합의 못 본다는 결과. '정답'이 아니라 '동의 분포'를 출력으로 다뤄야 한다는 거 — 단일 모델로 fact-check 자동화하면 한쪽 편향만 박제된다. menupie도 모델 하나 출력 그대로 안 쓰는 이유와 같다.
↗ news.ycombinator.com