벤더가 '우리 모델이 제일 잘 찾는다' 할 때 가장 먼저 할 일은 직접 벤치마크 짜보는 거다

Anthropic Mythos가 보안 취약점을 정말 잘 찾는지, 한 개발자가 Mythos가 발견한 실제 버그 9개를 모아 다른 모델들에게 blind로 풀려봤다. Opus랑 의외로 중국산 저가 모델들도 잘 찾더라는 것. Mythos만 잡은 것도 있었지만 '독보적'은 아니었다는 결론. 나는 이게 '자기 코드 자기 검증 안 하기'랑 같은 결이라고 본다. 만든 쪽 주장은 출발점일 뿐, 제3자가 같은 조건에서 재현해봐야 진짜 실력이 드러난다.