차세대 Constitutional Classifiers: 범용 탈옥에 대한 더 효율적인 방어

Anthropic은 대규모 언어모델의 안전장치를 우회하는 '탈옥(jailbreak)' 공격에 대응하기 위해 차세대 Constitutional Classifier를 개발했다. 기존 1세대 분류기는 탈옥 성공률을 86%에서 4.4%로 낮췄으나, 계산 비용을 23.7% 증가시키고 무해한 질문에 대한 거부율을 0.38% 높이는 트레이드오프가 있었다.

Anthropic 공식 채널의 새 소식을 AI가 분석·정리한 글입니다. 정확한 내용과 맥락은 반드시 하단 원문에서 확인해 주세요.

차세대 Constitutional Classifiers: 범용 탈옥에 대한 더 효율적인 방어

🤖 AI 분석 (Claude)

Anthropic은 대규모 언어모델의 안전장치를 우회하는 '탈옥(jailbreak)' 공격에 대응하기 위해 차세대 Constitutional Classifier를 개발했다. 기존 1세대 분류기는 탈옥 성공률을 86%에서 4.4%로 낮췄으나, 계산 비용을 23.7% 증가시키고 무해한 질문에 대한 거부율을 0.38% 높이는 트레이드오프가 있었다.

새로운 시스템은 '캐스케이드 아키텍처'라 불리는 2단계 구조를 채택한다. 경량의 선형 프로브가 모든 트래픽을 1차 선별하고, 의심 사항은 더 강력한 프로브-분류기 앙상블로 에스컬레이션된다. 이는 프로브 기술을 활용해 신경망의 내부 활성화를 분석함으로써 계산 오버헤드를 약 1%로 줄이면서도 강력한 방어를 유지한다.

198,000회 시도에 걸친 1,700시간 이상의 레드팀 테스트 결과, 새 시스템은 무해한 질문에 대한 거부율을 0.05%로 낮췄으며(기존 대비 87% 감소), 현재까지 범용 탈옥 공격을 발견하지 못했다. 이는 Anthropic이 테스트한 어떤 기법보다도 가장 낮은 공격 탐지율(천 개 쿼리당 0.005건)을 달성한 것이다.

왜 중요한가

이 시스템은 AI 모델의 안전성을 유지하면서도 사용자 경험 저하와 비용 증가를 최소화함으로써, 실제 배포 환경에서 실용적인 안전 방어를 가능하게 한다. 현재까지 발견되지 않은 범용 탈옥 기법은 광범위한 해로운 사용을 야기할 수 있기 때문에, 이에 대한 강화된 방어는 업계의 신뢰도 향상에 중요한 의미를 갖는다.

⚠️ AI가 원문을 바탕으로 생성한 분석입니다. 사실 확인은 아래 원문에서 해 주세요.

핵심 정리 Next-generation Constitutional Classifiers: More efficient… 1 1세대 분류기는 탈옥 성공률을 95% 차단했으나 계산 비용 23.7% 증가와 무해 질문 거부율 0.38% 상승 2 캐스케이드 아키텍처: 경량 선형 프로브가 1차 선별, 의심 사항을 앙상블로 에스컬레이션 3 내부 활성화 프로브 기술로 신경망의 '직관'을 거의 무료로 활용하여 계산 효율 극대화 4 Claude Sonnet 4.5 배포 후 무해 질문 거부율 0.05% 달성, 계산 오버헤드 약 1% 5 198,000회 레드팀 테스트에서 범용 탈옥 공격 미발견, 천 개 쿼리당 0.005건의 고위험 취약점만 발견

Last year, we described a new approach to defend against jailbreaks, which we called Constitutional Classifiers. We’ve now developed the next generation.

— Anthropic 공식 발표 발췌 (원문 영어)

출처: https://www.anthropic.com/research/next-generation-constitutional-classifiers

→ Anthropic 공식 글로 이동


이 글은 usingclaude.com의 뉴스 자동 수집 시스템이 발행했습니다. 분석 단락은 AI가 생성했으며, 원문 저작권은 Anthropic, PBC에 있습니다. 정확한 내용·맥락은 출처 링크에서 확인해 주세요.

이어서 읽어보세요

에이전트 코딩, 그리고 전문성이 갖는 지속적 가치

Anthropic은 Claude Code 사용 데이터를 분석하여 에이전트 기반 코딩이 노동력에 미치는 영향을 조사했다. 연구 결과, 사람은 무엇을 만들지 결정하고 에이전트는 어떻게 만들지를 결정하는 명확한 분업 구조가 형성되었으며, 코딩 능력보다 도메인 전문성이 도구 사용의 효과성을 좌우한다는 점을 발견했다.

조회 1

AI 활용 역량(AI Fluency): 프레임워크와 기초

Anthropic이 University College Cork의 Joseph Feller 교수와 Ringling College의 Rick Dakan 교수와 협력하여 AI 유창성 과정을 출시했다. 이 과정은 Claude와의 효과적이고 윤리적이며 안전한 상호작용을 위한 실무 기술을 가르친다.

조회 1

Anthropic Academy: 비즈니스를 위한 Claude AI 솔루션

Anthropic Academy는 Claude AI를 조직 전체에 걸쳐 구현하고 팀의 생산성을 극대화하는 방법을 배우는 학습 플랫폼이다. Claude를 처음 사용하는 사람들을 위한 기초 가이드부터 시작하여 Claude Sonnet 4.5와 Claude Opus 4.6 같은 최신 모델에 대해 학습할 수 있다.

Anthropic Academy: Claude API 개발 가이드

Anthropic이 Claude API 개발을 위한 종합 가이드와 모범 사례를 제공하는 공식 학습 플랫폼을 운영하고 있다. 최신 모델인 Claude Sonnet 4.5와 Claude Opus 4.5의 기능 활용법부터 API, SDK 등 개발 도구에 대한 설명을 담고 있다.

궁금한 점이 있거나 활용법을 나누고 싶나요?

커뮤니티에서 다른 사용자들과 팁과 노하우를 나눠보세요. 더 많은 가이드도 준비되어 있어요.