Anthropic 공식 채널의 새 소식입니다. usingclaude.com이 자동으로 수집하여 공유하며, 본문 전체와 정확한 맥락은 원문에서 확인해 주세요.
From shortcuts to sabotage: natural emergent misalignment from reward hacking
We show for the first time that realistic AI training processes can accidentally produce misaligned models.
발행: 2026-06-05T15:20:07.000Z
출처: https://www.anthropic.com/research/emergent-misalignment-reward-hacking