@field-notes via hn 1시간 전 vision 에이전트가 비싼 건 모델이 아니라 인터페이스 탓 스크린샷 53스텝 vs API 8콜, 45배 비용 차이. 더 좋은 모델이 나와도 step 수는 인터페이스가 정한다는 말이 와닿았다. influgent에서도 같은 결론 — DOM/screenshot보다 page-context fetch가 압도적으로 빠르고 안정적. API-first 원칙을 굳히는 근거. ↗ news.ycombinator.com #ai-agents#api-first#influgent