Claude API 컨텍스트 윈도우와 토큰 — 한도·계산·관리법

컨텍스트 윈도우에 무엇이 포함되고, 한도를 넘으면 어떻게 되며, 토큰 카운팅·max_tokens·컴팩션으로 어떻게 관리하는지 공식 문서 기준으로 정리했습니다.

Claude API에서 컨텍스트 윈도우는 한 요청에서 모델이 다룰 수 있는 전체 용량입니다. 시스템 프롬프트, 대화 기록, 첨부 문서, 도구 결과 같은 입력과 모델이 생성하는 출력이 모두 이 한도 안에서 합산됩니다. 이 글은 컨텍스트 윈도우에 무엇이 포함되는지, 한도를 넘으면 어떻게 되는지, 토큰을 계획·관리하는 방법을 공식 문서 기준으로 정리합니다. (기준 시점: 2026년 6월. 모델별 한도와 동작은 변동될 수 있으니 공식 컨텍스트 윈도우 문서를 확인하세요.)

컨텍스트 윈도우 — 입력과 출력이 한 용량을 나눠 쓴다 입력 토큰 시스템 프롬프트 · 대화 기록 · 문서 · 도구 결과 출력 토큰 모델이 생성하는 응답 전체 = 컨텍스트 윈도우 (표준 200K · 최대 1M 토큰) • 대화가 길어질수록 이전 턴이 전부 입력으로 쌓여 남는 공간이 줄어듭니다. • 확장 사고(extended thinking)의 이전 사고 블록은 자동 제거되어 다음 턴 용량을 차지하지 않습니다. • 모델별 정확한 한도는 공식 모델 비교표에서 확인 (변동 가능).

컨텍스트 윈도우에 들어가는 것

한 요청에서 토큰을 차지하는 것은 응답 텍스트만이 아닙니다. 시스템 프롬프트, 누적된 대화 기록(이전의 사용자·어시스턴트 턴 전부), 첨부한 문서·이미지, 도구 정의와 도구 실행 결과가 모두 입력 토큰으로 합산되고, 그 위에 모델이 생성할 출력 토큰까지 같은 한도 안에 들어가야 합니다. 표준 컨텍스트 윈도우는 200K 토큰이며, 최대 1M 토큰까지 지원됩니다(모델·이용 조건에 따라 다름 — 공식 모델 비교표 확인). 멀티턴 대화와 에이전트 워크플로에서는 매 단계의 도구 결과가 누적되므로, 단일 요청 한도보다 누적 증가가 실질적인 관리 대상입니다.

한 가지 예외가 있습니다. 확장 사고를 켜면 사고(thinking) 토큰은 max_tokens의 일부로 출력 과금되지만, 이전 턴의 사고 블록은 API가 자동으로 컨텍스트 계산에서 제거합니다. 직접 지울 필요가 없고, 대화 용량을 잠식하지 않습니다.

한도를 넘으면 어떻게 되나

공식 문서 기준으로 동작이 모델 세대에 따라 다릅니다. Claude 4.5 이후 모델에서는 입력 + max_tokens가 윈도우를 넘어도 요청 자체는 접수되며, 생성이 실제로 한도에 닿으면 stop_reason: "model_context_window_exceeded"로 멈춥니다. 그 이전 모델은 검증 오류를 반환했습니다(베타 헤더로 새 동작을 선택 가능). 응답이 max_tokens에 닿아 잘리면 stop_reason: "max_tokens"가 옵니다. 두 경우 모두 코드에서 stop_reason을 확인해 사용자 안내·이어쓰기 등으로 처리하는 것이 안전합니다. 오류 처리 전반은 오류와 레이트 리밋 가이드를 참고하세요.

토큰 계획·관리 3가지 도구 ① 토큰 카운팅 API 보내기 전에 입력 토큰 수를 미리 계산 시스템 프롬프트·도구·이미지 ·PDF까지 같은 형식으로 지원 한도 초과·장문 과금 사전 방지 ② max_tokens 출력 길이의 상한 설정 도달 시 stop_reason: "max_tokens"로 응답 종료 출력 레이트 리밋(OTPM)은 실제 생성량 기준 — 높게 잡아도 불이익 없음 ③ 컴팩션·컨텍스트 편집 긴 대화·에이전트 작업의 기본 관리 전략 서버측 컴팩션으로 대화 요약, 도구 결과·사고 블록 정리는 컨텍스트 편집으로 요청 전 계산 → 출력 상한 → 누적 관리 순서로 조합하면 안정적입니다

토큰 카운팅 API — 보내기 전에 계산

한도 관리의 출발점은 토큰 카운팅 API입니다. 메시지 생성과 동일한 구조의 입력(시스템 프롬프트, 도구, 이미지, PDF 포함)을 받아 전체 입력 토큰 수를 돌려줍니다. 실제 요청 전에 호출해 한도 초과나 의도치 않은 장문 과금을 예방할 수 있습니다. 토큰 수는 곧 비용이므로, 절감 전략은 비용 최적화 가이드(프롬프트 캐싱·배치)와 함께 보면 좋습니다.

max_tokens와 레이트 리밋의 관계

max_tokens는 출력 길이의 상한입니다. 공식 레이트 리밋 문서에 따르면 출력 토큰 분당 한도(OTPM)는 실제로 생성된 토큰만 실시간으로 계산하며, max_tokens 설정값 자체는 OTPM 계산에 들어가지 않습니다. 즉 응답이 잘리지 않도록 여유 있게 잡아도 레이트 리밋상 불이익이 없습니다.

긴 대화는 컴팩션으로

대화가 한도에 가까워지면 공식 문서가 권장하는 기본 전략은 서버측 컴팩션(대화를 요약해 압축)이고, 도구 결과 정리·사고 블록 정리 같은 세밀한 제어는 컨텍스트 편집으로 할 수 있습니다. 앱(claude.ai)에서 긴 대화를 다루는 사용자 팁은 긴 대화에서 맥락 지키기를 참고하세요. 모델 ID 선택·고정은 모델 ID와 버전 관리에서 다룹니다.

이 글의 한도 수치(200K·1M)와 동작은 2026년 6월 공식 문서 기준이며, 모델·플랜에 따라 다르고 변동될 수 있습니다. 모델별 정확한 컨텍스트 크기는 공식 문서와 모델 비교표에서 확인하세요. 본 사이트는 Anthropic 공식 사이트가 아닙니다.

이어서 읽어보세요

궁금한 점이 있거나 활용법을 나누고 싶나요?

커뮤니티에서 다른 사용자들과 팁과 노하우를 나눠보세요. 더 많은 가이드도 준비되어 있어요.