Measuring AI agent autonomy in practice

Anthropic은 Claude Code 사용자들의 실제 에이전트 배포 방식을 측정한 경험적 연구 결과를 공개했다. 2025년 10월부터 2026년 1월 사이에 99.9 백분위수 턴 지속 시간이 25분에서 45분 이상으로 거의 2배 증가했으며, 이는 모델의 자율성 능력이 실제 사용 시 행사하는 자율성보다 훨씬 앞서 있음을 시사한다.

2026년 6월 16일

Anthropic 공식 채널의 새 소식을 AI가 분석·정리한 글입니다. 정확한 내용과 맥락은 반드시 하단 원문에서 확인해 주세요.

Measuring AI agent autonomy in practice

🤖 AI 분석 (Claude)

사용자는 Claude Code 사용 경험이 쌓이면서 자율성 부여 수준을 높인다. 50개 미만의 세션을 한 신규 사용자는 완전 자동 승인을 약 20%에서 활용하지만, 750개 세션 사용자는 40% 이상에서 이를 사용한다. 동시에 사용자의 중단률도 경험과 함께 증가하며, Claude는 작업 복잡도가 높아질수록 더 자주 명확화를 요청한다.

현재 에이전트 활용은 소프트웨어 엔지니어링에 집중되어 있으며(공개 API 도구 호출의 약 50%), 대부분의 에이전트 행동은 저위험이고 가역적이다. 그러나 금융 거래나 데이터 접근 같은 고위험·고자율성 행동 클러스터도 존재하며, 에이전트가 더 높은 이해관계 분야로 확대되면서 위험-자율성 경계는 지속적으로 확장될 것으로 예상된다.

왜 중요한가

실제 배포 환경에서 측정한 에이전트 자율성 데이터는 모델 평가와 사용자 신뢰 형성 사이의 격차를 보여주며, 에이전트 기술이 새로운 고위험 영역으로 확대될 때 모델 개발자·제품 개발자·정책입안자들이 참고할 실증적 기초를 제공한다.

⚠️ AI가 원문을 바탕으로 생성한 분석입니다. 사실 확인은 아래 원문에서 해 주세요.

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

— Anthropic 공식 발표 발췌 (원문 영어)

출처: https://www.anthropic.com/research/measuring-agent-autonomy

→ Anthropic 공식 글로 이동

Measuring AI agent autonomy in practice

Measuring AI agent autonomy in practice

왜 중요한가

이어서 읽어보세요

Agentic coding and persistent returns to expertise

How Australia Uses Claude: Findings from the Anthropic Economic Index

A “diff” tool for AI: Finding behavioral differences in new models

Labor market impacts of AI: A new measure and early evidence

궁금한 점이 있거나 활용법을 나누고 싶나요?