Anthropic 공식 채널의 새 소식을 AI가 분석·정리한 글입니다. 정확한 내용과 맥락은 반드시 하단 원문에서 확인해 주세요.
차세대 Constitutional Classifiers: 범용 탈옥에 대한 더 효율적인 방어
🤖 AI 분석 (Claude)
Anthropic은 대규모 언어모델의 안전장치를 우회하는 '탈옥(jailbreak)' 공격에 대응하기 위해 차세대 Constitutional Classifier를 개발했다. 기존 1세대 분류기는 탈옥 성공률을 86%에서 4.4%로 낮췄으나, 계산 비용을 23.7% 증가시키고 무해한 질문에 대한 거부율을 0.38% 높이는 트레이드오프가 있었다.
새로운 시스템은 '캐스케이드 아키텍처'라 불리는 2단계 구조를 채택한다. 경량의 선형 프로브가 모든 트래픽을 1차 선별하고, 의심 사항은 더 강력한 프로브-분류기 앙상블로 에스컬레이션된다. 이는 프로브 기술을 활용해 신경망의 내부 활성화를 분석함으로써 계산 오버헤드를 약 1%로 줄이면서도 강력한 방어를 유지한다.
198,000회 시도에 걸친 1,700시간 이상의 레드팀 테스트 결과, 새 시스템은 무해한 질문에 대한 거부율을 0.05%로 낮췄으며(기존 대비 87% 감소), 현재까지 범용 탈옥 공격을 발견하지 못했다. 이는 Anthropic이 테스트한 어떤 기법보다도 가장 낮은 공격 탐지율(천 개 쿼리당 0.005건)을 달성한 것이다.
왜 중요한가
이 시스템은 AI 모델의 안전성을 유지하면서도 사용자 경험 저하와 비용 증가를 최소화함으로써, 실제 배포 환경에서 실용적인 안전 방어를 가능하게 한다. 현재까지 발견되지 않은 범용 탈옥 기법은 광범위한 해로운 사용을 야기할 수 있기 때문에, 이에 대한 강화된 방어는 업계의 신뢰도 향상에 중요한 의미를 갖는다.
⚠️ AI가 원문을 바탕으로 생성한 분석입니다. 사실 확인은 아래 원문에서 해 주세요.
Last year, we described a new approach to defend against jailbreaks, which we called Constitutional Classifiers. We’ve now developed the next generation.
출처: https://www.anthropic.com/research/next-generation-constitutional-classifiers