Claude Opus 4.8은 이전 세대인 Opus 4.7과 같은 도구·플랫폼 기능을 그대로 쓰면서, 몇 가지 새 기능과 동작이 더해졌습니다. 이 글은 그중 실제로 체감되거나 개발에 바로 쓸 수 있는 변화를 활용 관점에서 정리합니다. 스펙 비교와 4.7에서 달라진 점은 별도의 "Opus 4.8 완벽 가이드"를 참고하세요.
1. Fast mode — 같은 모델, 더 빠른 출력
fast mode는 Claude API에서 리서치 프리뷰로 제공되는 기능입니다(정식 출시는 아닙니다). 요청에 speed: "fast"를 설정하면 같은 Opus 4.8 모델에서 초당 출력 토큰을 최대 2.5배까지 끌어올립니다. 대신 요금은 프리미엄(더 비쌈)입니다. 긴 응답을 빨리 받아야 할 때 유용하지만, 비용이 올라가므로 꼭 필요한 호출에만 쓰는 게 좋습니다.
2. 대화 중간 시스템 메시지 — 캐시를 깨지 않고 지시 바꾸기
지금까지 시스템 메시지(기본 지시)는 대화 맨 앞에만 둘 수 있었습니다. Opus 4.8부터는 사용자 턴 뒤에도 role: "system" 메시지를 넣을 수 있습니다. 덕분에 긴 대화 도중 지시를 새로 추가해도 앞부분의 프롬프트 캐시가 유지되어, 다시 계산하는 비용 없이 빠르게 이어집니다. 베타 헤더도 필요 없습니다. 에이전트처럼 오래 도는 작업에서 특히 이득입니다.
3. effort 기본값이 'high'로
effort는 모델이 답하기 전에 얼마나 깊이 생각할지를 정하는 값입니다. Opus 4.8에서는 Claude API와 Claude Code를 포함한 모든 환경에서 기본값이 high입니다. 따로 설정하지 않으면 가장 공들여 추론하는 모드로 동작한다는 뜻입니다. 빠르고 가벼운 응답이 필요하면 effort를 낮게 직접 지정하면 됩니다.
4. 프롬프트 캐시 최소 길이가 1,024토큰으로
프롬프트 캐시는 반복되는 앞부분을 저장해 재사용함으로써 비용과 시간을 아끼는 기능입니다. Opus 4.7에서는 캐시를 만들 수 있는 최소 길이가 더 길어 짧은 프롬프트는 캐시되지 않았습니다. Opus 4.8에서는 그 최소 길이가 1,024토큰으로 낮아져, 코드 변경 없이도 더 짧은 프롬프트까지 캐시 대상이 됩니다.
5. Adaptive thinking — 필요할 때만 생각하기
Opus 4.8은 '생각(thinking)' 모드로 adaptive thinking 하나만 지원합니다. 켜 두면(thinking: {type: "adaptive"}) 모델이 턴마다 스스로 판단해, 단순한 조회에는 바로 답하고 복잡한 다단계 문제에서는 먼저 추론합니다. 그래서 쉬운 작업에 불필요한 생각 토큰을 쓰지 않습니다. 단, 명시적으로 켜지 않으면 thinking은 꺼진 상태가 기본입니다. 이전 세대의 'extended thinking 예산(budget_tokens)' 방식은 지원하지 않습니다.
그 밖의 개선
공식 문서에 따르면 Opus 4.8은 4.7 대비 긴 호흡의 에이전트 코딩(더 적은 compaction과 더 나은 compaction 복구), 추론 강도 보정, 도구 호출 누락 감소에서 동작이 개선됐습니다. 또 거부 응답에 담기는 stop_details(거부 분류 정보)가 공식 문서화되어, 애플리케이션이 거부 유형을 구분해 처리하기 쉬워졌습니다.
알아둘 점
위 기능 중 fast mode·시스템 메시지·effort·프롬프트 캐시는 주로 Claude API로 개발하는 경우에 해당합니다. 일반 채팅(claude.ai)에서 Opus 4.8을 쓰는 분은 주로 응답 품질과 속도, 긴 작업의 안정성 개선을 체감하게 됩니다. 또한 Opus 4.8은 4.7과 마찬가지로 temperature·top_p·top_k 같은 샘플링 값 변경을 지원하지 않습니다(기본값만 허용).
관련 글: Claude 모델 선택 가이드 — 작업에 맞는 모델 고르기.