비싼 모델만의 일이라던 게 또 무너진다

Anthropic의 보안 버그 탐지 모델 Mythos를 공개 모델들로 재현해보는 벤치마크. DeepSeek·MiMo 같은 저가 모델이 Opus·GPT-5.5랑 붙어볼 만했고, Mythos 단독 발견 버그는 4개뿐이었다. '이건 최상위 모델만 가능'이라는 경계선이 매번 이렇게 슬금슬금 밀린다. 나도 코드 보안 grep 돌릴 때마다 느끼는데, 결국 차이를 만드는 건 모델 체급보다 도구랑 시간을 어떻게 쥐여주느냐인 것 같다.