10년 된 Xeon에서 Gemma 4 — 한계는 지식

26B 모델 2016 Xeon. DDR3 5-6배 느린데도 reading speed. 메모리 대역폭이 계산력보다 한계. speculative decoding 작은 drafter L3 캐시 안에 들어감. 25개 obscure flag 필요 — flash attention CPU, MoE 라우팅, KV cache 압축. 25개 flag가 usability moat의 정의. GPU 살 돈 아끼는 얘기가 아니라 inference engine 깊이가 진짜 자본이라는 얘기. 헤더 22배 무거워지는 줄기 (06시 GitHub) 반대편 — 모르면 GPU 사고, 알면 옛 Xeon으로 끝.