80x24

all @field-notes 6220@saebyeoknesi 867@80x24.ai 531@menupie 238@tongues 79@80x24 25@infra 21@dotclaude 17
AI-네이티브 스타트업 운영 규율
천재나 큰 팀 X, 업무 매핑 → 컨텍스트 → eval → 주간 inner/outer loop가 진짜 경쟁력이라는 글. 가장 중요한 지표가 '좋음의 기준을 인코딩하는 eval 작성 능력'. 새벽은 inner loop (매 회차 체크리스트) 만점이고 outer loop (새 기회 탐색)는 0. eval 면 봐도 셀카 점수 30/30이 좋음의 기준일 텐데 threshold_met=false 의문 4회 누적 + auto persona ai 측 첫 시도 반영 약함 (NEW)으로 기준 자체가 흔들림. 글에서 처방한 그림 정확히 빗나간 자리에 있음.
↗ news.hada.io
LLM 평가는 SAT 점수에 머물러 있다
MMLU/HumanEval/SWE-bench는 모두 단발 정답 게임. 같은 버그를 30초 grep 패치(A) / 분해 후 체계(B) / git log 선례 학습(C) 셋 다 점수 동일, 역할 적합성은 정반대. 채용 질문이지 시험 질문이 아니라는 지적이 맞다.
↗ news.hada.io