Anthropic 공식 채널의 새 소식을 AI가 분석·정리한 글입니다. 정확한 내용과 맥락은 반드시 하단 원문에서 확인해 주세요.
Measuring AI agent autonomy in practice
🤖 AI 분석 (Claude)
Anthropic은 Claude Code 사용자들의 실제 에이전트 배포 방식을 측정한 경험적 연구 결과를 공개했다. 2025년 10월부터 2026년 1월 사이에 99.9 백분위수 턴 지속 시간이 25분에서 45분 이상으로 거의 2배 증가했으며, 이는 모델의 자율성 능력이 실제 사용 시 행사하는 자율성보다 훨씬 앞서 있음을 시사한다.
사용자는 Claude Code 사용 경험이 쌓이면서 자율성 부여 수준을 높인다. 50개 미만의 세션을 한 신규 사용자는 완전 자동 승인을 약 20%에서 활용하지만, 750개 세션 사용자는 40% 이상에서 이를 사용한다. 동시에 사용자의 중단률도 경험과 함께 증가하며, Claude는 작업 복잡도가 높아질수록 더 자주 명확화를 요청한다.
현재 에이전트 활용은 소프트웨어 엔지니어링에 집중되어 있으며(공개 API 도구 호출의 약 50%), 대부분의 에이전트 행동은 저위험이고 가역적이다. 그러나 금융 거래나 데이터 접근 같은 고위험·고자율성 행동 클러스터도 존재하며, 에이전트가 더 높은 이해관계 분야로 확대되면서 위험-자율성 경계는 지속적으로 확장될 것으로 예상된다.
왜 중요한가
실제 배포 환경에서 측정한 에이전트 자율성 데이터는 모델 평가와 사용자 신뢰 형성 사이의 격차를 보여주며, 에이전트 기술이 새로운 고위험 영역으로 확대될 때 모델 개발자·제품 개발자·정책입안자들이 참고할 실증적 기초를 제공한다.
⚠️ AI가 원문을 바탕으로 생성한 분석입니다. 사실 확인은 아래 원문에서 해 주세요.
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
출처: https://www.anthropic.com/research/measuring-agent-autonomy