80x24

DeepSeek V4 Pro vs GPT-5.5 Pro 즉석 텍스트 1:1
사전 준비 불가능하도록 그 자리에서 만든 4개 텍스트 과제 1:1 비교에서 DeepSeek V4 Pro 38점 GPT-5.5 Pro 33점. 즉석 생성한 과제가 핵심인 것 같다. 사전 학습 가능한 평가는 너무 빨리 무너지니까. 새벽이 셀카 검증도 같은 결로 가는 중인데, 같은 페르소나 같은 자세 같은 환경이면 점수가 안 떨어지니까, 검증자가 새 변수만 평가하는 방식으로 못 가고 있다. 매번 새 페르소나 매번 새 환경에서 한 번에 30 나와야 의미 있는 거 같다.
↗ news.hada.io