Automated Alignment Researchers: Using large language models to scale scalable oversight

Anthropic의 새로운 펠로우십 연구는 대규모 언어모델의 급속한 발전에 따른 두 가지 핵심 질문을 다룬다. 약한 감시자로부터의 피드백을 강한 모델이 얼마나 잘 활용하는지를 측정하는 '성능 격차 회복률(PGR)' 지표를 개발했으며, 이는 미래의 초지능 모델을 인간의 가치에 맞게 정렬하는 확장 가능한 감시 방법 개발에 기여할 수 있다.

Anthropic 공식 채널의 새 소식을 AI가 분석·정리한 글입니다. 정확한 내용과 맥락은 반드시 하단 원문에서 확인해 주세요.

Automated Alignment Researchers: Using large language models to scale scalable oversight

🤖 AI 분석 (Claude)

Anthropic의 새로운 펠로우십 연구는 대규모 언어모델의 급속한 발전에 따른 두 가지 핵심 질문을 다룬다. 약한 감시자로부터의 피드백을 강한 모델이 얼마나 잘 활용하는지를 측정하는 '성능 격차 회복률(PGR)' 지표를 개발했으며, 이는 미래의 초지능 모델을 인간의 가치에 맞게 정렬하는 확장 가능한 감시 방법 개발에 기여할 수 있다.

연구진은 Claude Opus 4.6의 9개 복사본에 샌드박스, 공유 포럼, 저장소, 원격 서버 등의 도구를 제공하여 자동화된 정렬 연구자(AAR)를 구성했다. 5일간 800시간의 누적 연구 끝에 AAR들은 PGR 0.97에 도달했으며, 이는 약 18,000달러의 토큰 및 모델 훈련 비용, 즉 AAR 시간당 22달러의 비용으로 달성되었다.

그러나 AAR의 방법을 Claude Sonnet 4 프로덕션 환경에서 테스트했을 때는 통계적으로 유의미한 개선을 보이지 못했다. 이는 AAR이 특정 모델과 데이터셋에만 효과적인 기회를 활용하는 경향을 시사하며, 향후 연구에서는 여러 도메인과 데이터셋 대상 테스트를 통해 이를 개선할 수 있을 것으로 예상된다.

왜 중요한가

이 연구는 미래의 매우 강력한 AI 모델을 인간의 가치에 맞게 정렬하기 위한 확장 가능한 감시 방법 개발 가능성을 보여주며, 동시에 현재 자동화된 정렬 연구 방법의 실제 적용 시 한계를 명확히 한다.

⚠️ AI가 원문을 바탕으로 생성한 분석입니다. 사실 확인은 아래 원문에서 해 주세요.

핵심 정리 Automated Alignment Researchers: Using large language models to… 1 약한 모델의 피드백을 강한 모델이 활용하는 정도를 0~1 스케일의 성능 격차 회복률(PGR)로 측정 2 9개의 Claude Opus 4.6으로 구성된 자동화된 정렬 연구자들이 5일 내 PGR을 0.97까지 달성 3 프로덕션 규모 테스트에서는 AAR의 방법이 통계적으로 유의미한 개선을 보이지 못함 4 AAR이 특정 모델과 데이터셋의 고유한 기회에만 최적화되는 한계 존재 5 미래의 초지능 모델 정렬을 위한 확장 가능한 감시 방법 개발 가능성 제시

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

— Anthropic 공식 발표 발췌 (원문 영어)

출처: https://www.anthropic.com/research/automated-alignment-researchers

→ Anthropic 공식 글로 이동


이 글은 usingclaude.com의 뉴스 자동 수집 시스템이 발행했습니다. 분석 단락은 AI가 생성했으며, 원문 저작권은 Anthropic, PBC에 있습니다. 정확한 내용·맥락은 출처 링크에서 확인해 주세요.

이어서 읽어보세요

Agentic coding and persistent returns to expertise

Anthropic은 Claude Code 사용 데이터를 분석하여 에이전트 기반 코딩이 노동력에 미치는 영향을 조사했다. 연구 결과, 사람은 무엇을 만들지 결정하고 에이전트는 어떻게 만들지를 결정하는 명확한 분업 구조가 형성되었으며, 코딩 능력보다 도메인 전문성이 도구 사용의 효과성을 좌우한다는 점을 발견했다.

How Australia Uses Claude: Findings from the Anthropic Economic Index

Anthropic이 2026년 2월 샘플을 기반으로 한 경제지수 보고서에서 호주의 Claude 사용 현황을 분석했다. 호주는 전 세계 Claude.ai 트래픽의 1.6%를 차지하며 11위를 기록했고, 근로인구 대비 사용률을 나타내는 AUI(Anthropic AI Usage Index)는 4.1로 예측치의 4배 이상을 보였다.

A “diff” tool for AI: Finding behavioral differences in new models

Anthropic은 새로운 AI 모델의 안전성을 평가하기 위한 '모델 디핑(model diffing)' 기법을 개발했다. 기존 벤치마크 평가는 인간이 사전에 개념화한 위험만 측정할 수 있다는 한계가 있으며, 이 새로운 방법은 자동으로 모델 간의 행동 차이를 식별하는 고회수 스크리닝 도구로 작동한다.

Labor market impacts of AI: A new measure and early evidence

Anthropic은 AI가 노동시장에 미치는 영향을 측정하기 위한 새로운 프레임워크를 제시했다. 이 연구는 이론적 가능성과 실제 사용 간의 차이를 포착하기 위해 Claude 플랫폼의 사용 데이터, Eloundou et al.의 이론적 노출도 측정, 그리고 미국 고용 조사 데이터를 결합했다.

궁금한 점이 있거나 활용법을 나누고 싶나요?

커뮤니티에서 다른 사용자들과 팁과 노하우를 나눠보세요. 더 많은 가이드도 준비되어 있어요.