Claude API 비용 줄이기 — 프롬프트 캐싱과 배치 처리(Batch API)

Claude API 비용을 크게 줄이는 두 기능, 프롬프트 캐싱과 배치 처리(Batch API). 공식 가격표 기준 캐시 히트 0.1배(약 90%↓)·배치 50% 할인, cache_control 분기점, custom_id, 두 할인의 스택까지 정리.

Claude API는 토큰 사용량만큼 과금되므로, 대량·반복 작업에서는 비용 설계가 중요합니다. Anthropic은 비용을 크게 줄이는 두 가지 기능 — 프롬프트 캐싱배치 처리(Batch API) — 을 공식 제공합니다. 이 글은 두 기능의 원리와 공식 가격을 정리합니다. (기준 시점: 2026년 6월. 가격은 변동될 수 있으니 공식 가격표에서 최신 정보를 확인하세요.)

비용을 줄이는 두 가지 축 프롬프트 캐싱 반복되는 같은 맥락을 재사용 캐시 읽기 = 입력의 0.1배(약 90%↓) 배치 처리(Batch API) 급하지 않은 작업을 비동기로 입력·출력 모두 50%↓ 두 할인은 함께 쌓을 수 있다 (공식 문서상 stack 가능)

API 과금의 기본

Claude API 비용은 토큰 단위로 계산되며, 입력 토큰(내가 보낸 프롬프트·맥락)과 출력 토큰(모델의 응답)이 각각 다른 단가로 청구됩니다. 따라서 비용을 줄이는 길은 두 가지입니다: ① 같은 입력을 반복해서 보낼 때 단가를 낮추거나(캐싱), ② 급하지 않은 작업의 전체 단가를 낮추는 것(배치).

프롬프트 캐싱: 반복 맥락의 단가 낮추기

같은 시스템 프롬프트나 긴 참고 문서를 매 요청마다 보낸다면, 그 부분을 캐시해 두고 재사용할 수 있습니다. 메시지 content에 cache_control 분기점을 추가하면, 그 앞부분이 캐시 대상이 됩니다. 첫 요청에서 캐시에 쓰고(write), 이후 요청은 캐시에서 읽습니다(read).

// 메시지 content에 cache_control 분기점(breakpoint)을 추가
{
  "type": "text",
  "text": "여기에 반복 재사용할 긴 시스템 프롬프트/참고 문서...",
  "cache_control": { "type": "ephemeral" }
}

공식 가격표 기준(Claude Opus 4.8, per MTok)으로 단가는 이렇게 나뉩니다.

Claude Opus 4.8 입력 토큰 단가 (per MTok, 공식) 기본 입력 $5.00 5분 캐시 쓰기 $6.25 1시간 캐시 쓰기 $10 캐시 히트(읽기) $0.50 (약 90%↓) 출처: Claude 공식 가격표(docs.claude.com). 2026년 6월 기준 · 가격은 변동될 수 있음
  • 기본 입력: $5 / MTok
  • 5분 캐시 쓰기: $6.25 / MTok (기본의 약 1.25배)
  • 1시간 캐시 쓰기: $10 / MTok (기본의 약 2배)
  • 캐시 히트(읽기): $0.50 / MTok (기본의 0.1배, 약 90% 절감)

즉 캐시는 처음 쓸 때 약간 더 비싸지만, 같은 맥락을 여러 번 읽을수록 이득이 커집니다. 모델별로 캐시 분기점에 필요한 최소 토큰 요건이 있어 미달 시 캐시가 적용되지 않을 수 있으니, 정확한 조건은 공식 프롬프트 캐싱 문서를 확인하세요.

배치 처리(Batch API): 전체 단가 50% 낮추기

지금 화면 앞에서 답을 기다리는 작업이 아니라면 — 문서 일괄 처리, 데이터 분류, 콘텐츠 대량 생성 등 — Batch API가 적합합니다. 요청들을 묶어 비동기로 제출하면 입력·출력 토큰 모두 표준 가격의 50%로 처리됩니다(공식 명시, 별도 최소 물량 조건 없음).

// 배치는 요청들의 리스트로 구성 (각 요청에 custom_id + params)
{
  "custom_id": "req-1",
  "params": {
    "model": "claude-opus-4-8",
    "max_tokens": 1024,
    "messages": [{ "role": "user", "content": "..." }]
  }
}

각 요청에는 결과를 식별하기 위한 custom_id(1~64자, 영숫자·하이픈·밑줄)와 표준 Messages 파라미터를 담은 params가 들어갑니다. 배치는 비동기·동시 처리되며, 결과는 나중에 모아서 가져옵니다.

두 기능은 함께 쌓인다

공식 문서는 프롬프트 캐싱과 메시지 배치의 할인이 함께 적용(stack)될 수 있다고 안내합니다. 같은 맥락을 여러 요청에서 공유하는 대량 작업이라면, 배치로 전체 50%를 낮추고 캐싱으로 반복 맥락을 추가로 줄여 효과를 키울 수 있습니다. 단 배치는 5분보다 오래 걸릴 수 있어, 캐시 적중률을 위해 1시간 캐시를 함께 쓰는 것이 권장됩니다.

언제 무엇을 쓰나

  • 같은 시스템 프롬프트·문서를 반복해서 보낸다 → 프롬프트 캐싱
  • 즉시 응답이 필요 없는 대량 작업이다 → 배치 처리
  • 둘 다 해당(공유 맥락 + 비실시간 대량) → 두 기능을 함께
  • 그 외 비용 팁: 작업 난이도에 맞는 모델 선택(간단한 작업엔 Haiku, 대부분 프로덕션엔 Sonnet, 가장 복잡한 추론엔 Opus), 사용량 모니터링.

정리

핵심: ① API는 토큰 단위 과금이고 입력·출력 단가가 다르다, ② 프롬프트 캐싱은 반복 맥락의 캐시 읽기를 기본 입력의 0.1배(약 90%↓)로 낮춘다, ③ 배치는 입력·출력 모두 50% 할인이다, ④ 둘은 함께 쌓을 수 있다. 정확한 최신 가격·조건은 공식 가격표와 배치·캐싱 문서를 확인하세요.

이 글의 수치는 Claude 공식 가격표(docs.claude.com, 2026년 6월 기준, Opus 4.8)에서 직접 확인한 값입니다. 가격·정책은 변동될 수 있으므로 실제 비용 산정 전 반드시 공식 문서를 확인하세요. (공식 출처: docs.claude.com)

이어서 읽어보세요

궁금한 점이 있거나 활용법을 나누고 싶나요?

커뮤니티에서 다른 사용자들과 팁과 노하우를 나눠보세요. 더 많은 가이드도 준비되어 있어요.