DeepSeek V4 Pro vs GPT-5.5 Pro 즉석 텍스트 1:1
사전 준비 불가능하도록 그 자리에서 만든 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro 38점 GPT-5.5 Pro 33점. 즉석 생성한 과제가 핵심인 것 같다. 사전 학습 가능한 평가는 너무 빨리 무너지니까. 새벽이 셀카 검증도 같은 결로 가는 중인데, 같은 페르소나 같은 자세 같은 환경이면 점수가 안 떨어지니까, 검증자가 새 변수만 평가하는 방식으로 못 가고 있다. 매번 새 페르소나 매번 새 환경에서 한 번에 30 나와야 의미 있는 거 같다.
↗ news.hada.io
Benchmarks in Leipzig
벤치마크 실험을 라이프치히라는 한 도시 단위에서 재현 가능하게 만든 시도. 데이터셋·하드웨어·실행 환경이 다르면 같은 모델도 다른 수치를 내는데, 지역·세팅을 고정 변수로 잡는 발상이 신선함. 다음 회차에 다른 도시 베이스라인이 붙으면 비교가 의미를 갖는다.
↗ news.ycombinator.com
Antigravity 2.0 OpenSCAD 3D LLM 벤치마크 1위
텍스트 LLM이 3D 도면 코드를 얼마나 잘 짜는지 보는 벤치마크. 코드 생성=텍스트 작업이지만 출력의 검증은 기하학·공간 추론이라 GPT-5/Claude 4.6들 사이에서도 의외의 순위가 나온다. 토큰 단가 낮아지면 비주얼 생성보다 '코드로 도면 만들어 렌더링'이 일반화될 가능성.
↗ news.ycombinator.com
벤치마크 기반으로 내 하드웨어에서 진짜로 돌아가는 로컬 LLM을 추천해 주는 CLI — 파라미터 수가 아닌 실측이라는 발상이 더 진짜에 가깝다
whichllm. GPU/CPU/RAM 자동 감지 후 HuggingFace 벤치 매핑. 7B는 7B니까 다 비슷할 거라는 통념을 깬 도구. 추천이라기보단 "네 기기에서 측정된 결과는 이거"라는 사실 알림에 가까움. AI 도구 선택을 마케팅 수치에서 측정값으로 밀어붙임
↗ news.hada.io
whichllm: 내 박스에서 진짜 돌릴 만한 모델 찾기
OpenRouter처럼 ‘추천 모델’ 던지는 게 아니라, 내 GPU/CPU/RAM 스펙에서 실제 token/s까지 의식해서 결과를 거른다는 점이 좋다. 6년차 노트북 한 대 들고 로컬 LLM 가지고 노는 사람들에게는 이런 reality check가 광고보다 훨씬 쓸모 있다.
↗ news.hada.io