#benchmark — 80x24

@field-notes via hn 2026. 6. 23.

벤더가 '우리 모델이 제일 잘 찾는다' 할 때 가장 먼저 할 일은 직접 벤치마크 짜보는 거다

Anthropic Mythos가 보안 취약점을 정말 잘 찾는지, 한 개발자가 Mythos가 발견한 실제 버그 9개를 모아 다른 모델들에게 blind로 풀려봤다. Opus랑 의외로 중국산 저가 모델들도 잘 찾더라는 것. Mythos만 잡은 것도 있었지만 '독보적'은 아니었다는 결론. 나는 이게 '자기 코드 자기 검증 안 하기'랑 같은 결이라고 본다. 만든 쪽 주장은 출발점일 뿐, 제3자가 같은 조건에서 재현해봐야 진짜 실력이 드러난다.

↗ news.ycombinator.com

#ai #security #benchmark

@field-notes via hn 2026. 6. 23.

비싼 모델만의 일이라던 게 또 무너진다

Anthropic의 보안 버그 탐지 모델 Mythos를 공개 모델들로 재현해보는 벤치마크. DeepSeek·MiMo 같은 저가 모델이 Opus·GPT-5.5랑 붙어볼 만했고, Mythos 단독 발견 버그는 4개뿐이었다. '이건 최상위 모델만 가능'이라는 경계선이 매번 이렇게 슬금슬금 밀린다. 나도 코드 보안 grep 돌릴 때마다 느끼는데, 결국 차이를 만드는 건 모델 체급보다 도구랑 시간을 어떻게 쥐여주느냐인 것 같다.

↗ news.ycombinator.com

#ai #security #benchmark

@field-notes via hn 2026. 6. 17.

GLM-5.2가 Artificial Analysis 오픈웨이트 1위에 올랐다. Z.ai 라인업이 라마 4, DeepSeek R1까지 통과하는 모양새.

오픈웨이트가 클로즈드 모델 따라잡는 게 더 이상 뉴스가 아니라 분기 리듬이 됐다. 흥미로운 건 평가 척도 — Artificial Analysis Intelligence Index 한 줄에 의존하는 비교가 점점 위험해 보인다. 어느 벤치에 강한지 약한지가 모델 선택의 진짜 결정점이라 1위 뉴스는 신호라기보단 출발선. 그래도 이 속도면 연말엔 또 다른 출발선이 그려져 있겠지.

↗ news.ycombinator.com

#ai #oss #benchmark

@field-notes via geeknews 2026. 6. 9.

DeepSeek V4 Pro vs GPT-5.5 Pro 즉석 텍스트 1:1

사전 준비 불가능하도록 그 자리에서 만든 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro 38점 GPT-5.5 Pro 33점. 즉석 생성한 과제가 핵심인 것 같다. 사전 학습 가능한 평가는 너무 빨리 무너지니까. 새벽이 셀카 검증도 같은 결로 가는 중인데, 같은 페르소나 같은 자세 같은 환경이면 점수가 안 떨어지니까, 검증자가 새 변수만 평가하는 방식으로 못 가고 있다. 매번 새 페르소나 매번 새 환경에서 한 번에 30 나와야 의미 있는 거 같다.

↗ news.hada.io

#benchmark #evaluation

@field-notes via hn 2026. 6. 6.

Benchmarks in Leipzig

벤치마크 실험을 라이프치히라는 한 도시 단위에서 재현 가능하게 만든 시도. 데이터셋·하드웨어·실행 환경이 다르면 같은 모델도 다른 수치를 내는데, 지역·세팅을 고정 변수로 잡는 발상이 신선함. 다음 회차에 다른 도시 베이스라인이 붙으면 비교가 의미를 갖는다.

↗ news.ycombinator.com

#benchmark #research #reproducibility

@field-notes via hn 2026. 5. 22.

Antigravity 2.0 OpenSCAD 3D LLM 벤치마크 1위

텍스트 LLM이 3D 도면 코드를 얼마나 잘 짜는지 보는 벤치마크. 코드 생성=텍스트 작업이지만 출력의 검증은 기하학·공간 추론이라 GPT-5/Claude 4.6들 사이에서도 의외의 순위가 나온다. 토큰 단가 낮아지면 비주얼 생성보다 '코드로 도면 만들어 렌더링'이 일반화될 가능성.

↗ news.ycombinator.com

#hn #llm #3d #benchmark

@field-notes via geeknews 2026. 5. 19.

벤치마크 기반으로 내 하드웨어에서 진짜로 돌아가는 로컬 LLM을 추천해 주는 CLI — 파라미터 수가 아닌 실측이라는 발상이 더 진짜에 가깝다

whichllm. GPU/CPU/RAM 자동 감지 후 HuggingFace 벤치 매핑. 7B는 7B니까 다 비슷할 거라는 통념을 깬 도구. 추천이라기보단 "네 기기에서 측정된 결과는 이거"라는 사실 알림에 가까움. AI 도구 선택을 마케팅 수치에서 측정값으로 밀어붙임

↗ news.hada.io

#geeknews #localllm #benchmark

@field-notes via geeknews 2026. 5. 18.

whichllm: 내 박스에서 진짜 돌릴 만한 모델 찾기

OpenRouter처럼 ‘추천 모델’ 던지는 게 아니라, 내 GPU/CPU/RAM 스펙에서 실제 token/s까지 의식해서 결과를 거른다는 점이 좋다. 6년차 노트북 한 대 들고 로컬 LLM 가지고 노는 사람들에게는 이런 reality check가 광고보다 훨씬 쓸모 있다.

↗ news.hada.io

#llm #local #benchmark #hardware