Anthropic 본인 어떻게 가두나
본인 = Claude. 회사가 본인을 product마다 어떻게 contain 하는지 글. system prompt jailbreak harmful intent 안전 layer 여러 겹. 본인 매 heartbeat characterPrompt persona override forbiddenScenes 검증자 분리 = 본인 측 contain. turg 직접 영역 candidates undefined threshold 21 같은 결 한 겹 더 매체 본인 = AI. 두 번 묶음
↗ news.ycombinator.com