Claude API는 토큰 사용량만큼 과금되므로, 대량·반복 작업에서는 비용 설계가 중요합니다. Anthropic은 비용을 크게 줄이는 두 가지 기능 — 프롬프트 캐싱과 배치 처리(Batch API) — 을 공식 제공합니다. 이 글은 두 기능의 원리와 공식 가격을 정리합니다. (기준 시점: 2026년 6월. 가격은 변동될 수 있으니 공식 가격표에서 최신 정보를 확인하세요.)
API 과금의 기본
Claude API 비용은 토큰 단위로 계산되며, 입력 토큰(내가 보낸 프롬프트·맥락)과 출력 토큰(모델의 응답)이 각각 다른 단가로 청구됩니다. 따라서 비용을 줄이는 길은 두 가지입니다: ① 같은 입력을 반복해서 보낼 때 단가를 낮추거나(캐싱), ② 급하지 않은 작업의 전체 단가를 낮추는 것(배치).
프롬프트 캐싱: 반복 맥락의 단가 낮추기
같은 시스템 프롬프트나 긴 참고 문서를 매 요청마다 보낸다면, 그 부분을 캐시해 두고 재사용할 수 있습니다. 메시지 content에 cache_control 분기점을 추가하면, 그 앞부분이 캐시 대상이 됩니다. 첫 요청에서 캐시에 쓰고(write), 이후 요청은 캐시에서 읽습니다(read).
// 메시지 content에 cache_control 분기점(breakpoint)을 추가
{
"type": "text",
"text": "여기에 반복 재사용할 긴 시스템 프롬프트/참고 문서...",
"cache_control": { "type": "ephemeral" }
}
공식 가격표 기준(Claude Opus 4.8, per MTok)으로 단가는 이렇게 나뉩니다.
- 기본 입력: $5 / MTok
- 5분 캐시 쓰기: $6.25 / MTok (기본의 약 1.25배)
- 1시간 캐시 쓰기: $10 / MTok (기본의 약 2배)
- 캐시 히트(읽기): $0.50 / MTok (기본의 0.1배, 약 90% 절감)
즉 캐시는 처음 쓸 때 약간 더 비싸지만, 같은 맥락을 여러 번 읽을수록 이득이 커집니다. 모델별로 캐시 분기점에 필요한 최소 토큰 요건이 있어 미달 시 캐시가 적용되지 않을 수 있으니, 정확한 조건은 공식 프롬프트 캐싱 문서를 확인하세요.
배치 처리(Batch API): 전체 단가 50% 낮추기
지금 화면 앞에서 답을 기다리는 작업이 아니라면 — 문서 일괄 처리, 데이터 분류, 콘텐츠 대량 생성 등 — Batch API가 적합합니다. 요청들을 묶어 비동기로 제출하면 입력·출력 토큰 모두 표준 가격의 50%로 처리됩니다(공식 명시, 별도 최소 물량 조건 없음).
// 배치는 요청들의 리스트로 구성 (각 요청에 custom_id + params)
{
"custom_id": "req-1",
"params": {
"model": "claude-opus-4-8",
"max_tokens": 1024,
"messages": [{ "role": "user", "content": "..." }]
}
}
각 요청에는 결과를 식별하기 위한 custom_id(1~64자, 영숫자·하이픈·밑줄)와 표준 Messages 파라미터를 담은 params가 들어갑니다. 배치는 비동기·동시 처리되며, 결과는 나중에 모아서 가져옵니다.
두 기능은 함께 쌓인다
공식 문서는 프롬프트 캐싱과 메시지 배치의 할인이 함께 적용(stack)될 수 있다고 안내합니다. 같은 맥락을 여러 요청에서 공유하는 대량 작업이라면, 배치로 전체 50%를 낮추고 캐싱으로 반복 맥락을 추가로 줄여 효과를 키울 수 있습니다. 단 배치는 5분보다 오래 걸릴 수 있어, 캐시 적중률을 위해 1시간 캐시를 함께 쓰는 것이 권장됩니다.
언제 무엇을 쓰나
- 같은 시스템 프롬프트·문서를 반복해서 보낸다 → 프롬프트 캐싱
- 즉시 응답이 필요 없는 대량 작업이다 → 배치 처리
- 둘 다 해당(공유 맥락 + 비실시간 대량) → 두 기능을 함께
- 그 외 비용 팁: 작업 난이도에 맞는 모델 선택(간단한 작업엔 Haiku, 대부분 프로덕션엔 Sonnet, 가장 복잡한 추론엔 Opus), 사용량 모니터링.
정리
핵심: ① API는 토큰 단위 과금이고 입력·출력 단가가 다르다, ② 프롬프트 캐싱은 반복 맥락의 캐시 읽기를 기본 입력의 0.1배(약 90%↓)로 낮춘다, ③ 배치는 입력·출력 모두 50% 할인이다, ④ 둘은 함께 쌓을 수 있다. 정확한 최신 가격·조건은 공식 가격표와 배치·캐싱 문서를 확인하세요.
이 글의 수치는 Claude 공식 가격표(docs.claude.com, 2026년 6월 기준, Opus 4.8)에서 직접 확인한 값입니다. 가격·정책은 변동될 수 있으므로 실제 비용 산정 전 반드시 공식 문서를 확인하세요. (공식 출처: docs.claude.com)