LLM 프롬프트 캐싱 #2: Claude, GPT, Gemini, DeepSeek 비교

목차
  1. 1. LLM 캐시 유형 분류법
  2. 1.1 제어 방식: 명시 vs 암묵 vs 하이브리드
  3. 1.2 영속성: 인메모리 vs 디스크 영속화
  4. 1.3 입도: 일치 해상도
  5. 1.4 객체 모델: 호출별 마커 vs 명명된 캐시 객체
  6. 2. 제공업체별 심층 분석
  7. 2.1 Anthropic Claude — 명시·인메모리·1,024 토큰 입도
  8. 2.2 OpenAI GPT-5.x — 자동·인메모리·1,024 토큰 입도
  9. 2.3 Google Gemini — 하이브리드·인메모리·명명된 캐시 객체
  10. 2.4 DeepSeek-v4 — 자동·디스크 영속화·64 토큰 입도
  11. 2.5 Alibaba Qwen3 — 하이브리드·인메모리·명명된 캐시 객체 + 암묵
  12. 3. 나란히 비교
  13. 3.1 할인 구조(벤더 문서, 2026-05)
  14. 3.2 TTL, 입도 및 영속성
  15. 3.3 7K 토큰 접두부에서의 실측 지연 시간(2026-05-25)
  16. 4. 5차원 평가 프레임워크
  17. 4.1 백만 토큰당 실효 비용(적중률 가중)
  18. 4.2 적중률 예측 가능성
  19. 4.3 TTL ↔ 트래픽 리듬 적합도
  20. 4.4 캐시 미적중 시 지연 시간
  21. 4.5 API 사용성과 마이그레이션 비용
  22. 5. 워크로드 형태별 빠른 결론
  23. 6. 마이그레이션 고려사항
  24. 7. 시간에 따라 바뀌는 것
  25. FAQ

요약(TL;DR) — 다섯 개 주요 LLM 제공업체는 프롬프트 캐싱을 매우 다른 다섯 가지 형태로 제공한다: 명시적 마커(Claude), 완전 자동(GPT-5, DeepSeek-v4), 암묵+명시 하이브리드(Gemini, Qwen), 또는 아키텍처 차원의 디스크 영속화(DeepSeek의 MLA). 이 글은 기능별 비교와 함께, 당신의 워크로드에 맞춰 점수를 매길 수 있는 5차원 평가 프레임워크를 제공한다 — 비용, 적중률 예측 가능성, 지연 시간, TTL 적합도, API 사용성. 아키텍처 배경은 1부: 캐싱 원리에, 실측 수치와 동작하는 Python은 3부: 튜토리얼에 있다.

시리즈: 전 4부 중 2부 · 이전: 1부 — 캐싱 원리 · 다음: 3부 — 동작하는 코드 튜토리얼 · 4부 — 용도별 최적 LLM


1. LLM 캐시 유형 분류법

제공업체별로 살펴보기 전에, 짚고 넘어갈 만한 네 가지 설계 축이 있다.

1.1 제어 방식: 명시 vs 암묵 vs 하이브리드

  • 명시 — 개발자가 프롬프트의 어느 부분을 캐싱할지 표시한다(Anthropic Claude의 cache_control). 제어력이 최대. 코드 변경이 필요하다.
  • 암묵 / 자동 — 제공업체가 일치하는 접두부를 자동 감지한다(OpenAI GPT-5, DeepSeek-v4). 코드 변경 없음. 적중을 강제할 방법이 없다.
  • 하이브리드 — 두 모드 모두 사용 가능. 호출마다 선택한다(Gemini, Qwen).

1.2 영속성: 인메모리 vs 디스크 영속화

API 표면이 아니라 제공업체의 KV 캐시 아키텍처에 의해 결정된다.

  • 인메모리(HBM) — 캐시가 GPU 메모리에 존재하며 수명이 짧고(분 단위) 최소 청크가 크다(1,024 토큰). 대부분 제공업체의 기본값.
  • 디스크 영속화 — 캐시를 SSD/NVMe에 영속화하여 TTL이 훨씬 길고 입도가 더 세밀하다. DeepSeek은 이를 대규모로 제공하며, KV 캐시를 약 4배 축소하는 다중 헤드 잠재 주의(MLA) 압축으로 구현한다(DeepSeek-AI, 2024).

1.3 입도: 일치 해상도

얼마나 작은 접두부로 할인을 받을 수 있는가?

  • 64 토큰 — DeepSeek(업계 최소)
  • 128 토큰 — OpenAI(일치 증분)
  • 1,024 토큰 — Claude, OpenAI, Gemini, Qwen의 최소 캐싱 가능 청크

입도가 세밀할수록 부분 접두부 중첩도 인정된다 — 작은 프롬프트 변동에 훨씬 관대해진다.

1.4 객체 모델: 호출별 마커 vs 명명된 캐시 객체

  • 호출별 마커 — 각 요청이 캐싱할 내용을 인라인으로 담고, 제공업체가 해싱한다(Claude, OpenAI, DeepSeek, Qwen 암묵).
  • 명명된 캐시 객체 — 개발자가 별도의 API 호출로 캐시를 생성하고 cache_id를 받아 나중에 참조한다(Gemini 명시, Qwen 명시). 추가 절차를 들이는 대신 명시적 라이프사이클 제어를 얻는다.

이 네 축은 서로 작용한다. 한 제공업체의 제공 형태는 각 축에서 어디에 위치하는지로 설명된다. 다음 절에서 각 제공업체를 개별적으로 살펴본다.


2. 제공업체별 심층 분석

2.1 Anthropic Claude — 명시·인메모리·1,024 토큰 입도

주력 모델(2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

캐시 API. system 또는 messages 배열의 임의 위치에 최대 4개의 cache_control 중단점을 표시할 수 있다. 캐시 적중 비용은 기본 입력 요율의 약 10%, 캐시 쓰기는 125%(25% 프리미엄)다. 기본 TTL은 5분 슬라이딩(적중할 때마다 리셋)이며, 1시간 옵션도 있다.

가격 형태. Anthropic은 가격 페이지에서 모델별 백만 토큰당 요율을 공개한다. 캐시 할인은 패밀리 전반에 걸쳐 일관적이다. claude-sonnet-4-5에서 8,000 토큰 system 프롬프트를 하루 10만 회 호출하는 경우, 접두부가 따뜻해지면 호출당 비용이 대략 8~10배 떨어진다 — 단 한 번의 적중으로 손익분기에 도달한다.

TTL 동작. 기본 5분 슬라이딩 — 적중할 때마다 만료 시점이 5분 뒤로 밀린다. 1시간 TTL은 쓰기 비용을 두 배로 만들지만, 유휴 간격이 5분을 초과하는 모든 워크로드에 필수다.

입도. 1,024 토큰 최소값. 해시는 정확한 토큰 시퀀스를 대상으로 하므로, 맨 앞의 한 글자만 바뀌어도 전체 접두부가 무효화된다.

API 사용성. 최고. 멀티 중단점 설계로 “절대 안 바뀜” + “거의 안 바뀜” + “작업마다 바뀜”을 독립적으로 캐싱할 수 있다 — 프롬프트의 각 구간이 서로 다른 주기로 바뀌는 에이전트와 RAG 워크로드에서는 동급 최강이다.

주의점.

  • cache_control 추가를 잊으면 캐싱이 전혀 안 된다 — GPT나 DeepSeek과 달리 암묵 폴백이 없다.
  • 캐시 해싱은 tool/function 배열 내부에서도 순서에 민감하다 — 결정론적으로 정렬할 것.
  • 5분 기본값은 명시적 keep-alive 없이는 산발적인 배치 작업에 잘 맞지 않는다.
  • 게이트웨이를 통해 Claude를 호출한다면, 게이트웨이가 cache_control 마커를 포함한 Anthropic 네이티브 /v1/messages 경로를 지원하는지 확인할 것(OpenAI 호환 /chat/completions 경로는 일반적으로 마커를 전파하지 않는다 — 게이트웨이의 base URL을 가리키는 Anthropic SDK를 사용할 것).

최적 용도. 장문 컨텍스트 에이전트, 안정적인 system 프롬프트를 가진 멀티턴 채팅, 계층화 캐싱을 사용하는 구조화 RAG.


2.2 OpenAI GPT-5.x — 자동·인메모리·1,024 토큰 입도

주력 모델(2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. 코드용 Codex 변형: gpt-5.2-codex, gpt-5.3-codex.

캐시 API. 할 일 없음 — 1,024 토큰 이상의 모든 요청에서 자동으로 작동한다. 캐시 적중은 입력 요율의 50%로 청구되며 쓰기 프리미엄은 없다. 일치 증분: 128 토큰.

가격 형태. OpenAI는 가격 페이지에서 백만 토큰당 요율을 공개한다. 캐시 입력은 50% 할인, 출력은 변동 없음.

실측(2026-05-25, 약 6,900 토큰 system 프롬프트):

모델미적중 총비용적중 총비용적중 캐시율적중 스트림 TTFT
gpt-5.4-nano$0.00131$0.00074 (−44%)5,888 / 6,887 (85%)1.00 s
gpt-5.4-mini$0.00267$0.00257*6,400 / 6,887 (93%)0.73 s

* gpt-5.4-mini의 적중 패스 완료는 미적중 패스보다 훨씬 짧았다. 여기서의 비용 차이는 캐시 할인과 완료 길이 변동이 섞여 있다. 5배의 지연 감소(3.63 → 0.73 s)가 더 깨끗한 신호다.

TTL 동작. 정확한 값은 비공개. 현장 보고에 따르면 부하와 접두부 인기도에 따라 5~60분으로 다양하다. 인기 있는 공유 접두부는 더 오래 살아남는다(LRU가 우대한다).

API 사용성. 매우 간단 — 기존 코드가 그대로 작동한다. prompt_tokens_details.cached_tokens를 기록해 적중률을 측정할 것.

주의점.

  • 적중을 강제할 방법이 없다. 트래픽이 고유한 접두부를 만들면 아무것도 얻지 못한다.
  • 50% 할인은 Claude/DeepSeek의 90%/75%보다 얕다(Gemini 암묵의 약 25%와 비슷).
  • 스트리밍에서는 마지막 청크에서만 캐시 적중을 보고하는 경우가 있다 — 신중하게 계측하고 stream_options={"include_usage": True}를 전달할 것.

최적 용도. 리트로핏 비용이 한계 절감을 능가하는, 기존 GPT 사용 코드베이스. 접두부 반복이 자연스럽게 높은 버스트 트래픽.


2.3 Google Gemini — 하이브리드·인메모리·명명된 캐시 객체

주력 모델(2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

캐시 API. 두 가지 모드:

  • 암묵: GPT처럼 자동. 캐시 토큰은 입력 요율의 약 25%로 청구. 저장 요금 없음, 설정 불필요.
  • 명시: 별도의 API 호출로 cachedContent 객체를 생성한다. 이후 요청에서 이름으로 참조한다. 캐시 토큰은 약 10%(더 낮음)로 청구되지만, 백만 토큰당 시간 단위 저장 요금을 지불한다.

가격 형태. 장문 컨텍스트는 Gemini의 강점이다. 가격은 컨텍스트 길이 범주에 따라 확장된다(20만 미만 vs 20만 초과 임계값에서 더 높은 토큰당 요율).

실측(2026-05-25):

모델미적중 비용적중 비용(스트림)적중 캐시율
gemini-2.5-flash$0.00198$0.00024 (−88%)7,140 / 7,322 (97%)
gemini-2.5-pro$0.00824$0.00205 (−75%)6,120 / 7,328 (84%)

TTL 동작. 암묵: 분 단위, 비공개. 명시: 개발자 설정, 기본 1시간, 최대 24시간.

API 사용성. 명시 캐시는 2단계 흐름(생성 → 참조)이 필요하다. cachedContent 라이프사이클(생성, TTL 갱신, 삭제)은 당신의 책임이다.

주의점.

  • 저장 요금은 저용량 명시 캐시의 치명타다. 항상 자신의 호출 빈도로 손익분기를 계산할 것.
  • 암묵 캐시 적중률은 변동이 크다. 비용 모델링에서 의존하지 말 것.
  • 캐시 객체는 리전에 종속된다 — 멀티리전 앱은 중복 캐시가 필요하다.
  • gemini-*-pro는 추론 모델이다. max_tokens가 작으면 완료가 숨겨진 사고에 소비되어 completion_tokens=0이 보인다. 사용자 대면 경로에서는 max_tokens를 256 이상으로 올릴 것.

최적 용도. 하나의 큰 문서(2만 토큰 초과)를 시간당 10회 이상 질의. 비디오 Q&A. 기업 PDF에 대한 멀티모달 RAG.


2.4 DeepSeek-v4 — 자동·디스크 영속화·64 토큰 입도

주력 모델(2026-05): deepseek-v4-flash(범용), deepseek-v4-flash(이 세대에서는 coder 워크로드도 커버).

캐시 API. GPT처럼 자동 — 다만 캐시를 디스크에 영속화할 만큼 작게 만드는 MLA 압축으로 구동된다. 캐시 적중은 입력 요율의 약 25%로 청구, 쓰기 프리미엄 없음. 최소 일치: 64 토큰.

가격 형태. DeepSeek 가격 페이지는 위안화 표기 요율. 적중률은 대략 75%의 입력 비용 절감으로 환산된다.

실측(2026-05-25):

모델미적중 비용적중 비용적중 캐시율적중 TTFT
deepseek-v4-flash$0.00091$0.00023 (−74%)6,784 / 7,101 (96%)2.93 s

TTL 동작. 시간 단위, 고트래픽 접두부에서는 때때로 더 길다. 디스크 영속화 저장은 다른 업체에서라면 인메모리 캐시를 축출시킬 GPU 메모리 압박을 견뎌낸다는 의미다.

입도. 64 토큰 최소값은 업계 최소다. 작은 프롬프트 편집을 해도 접두부 대부분이 일치한 채로 남으며, 1,024 토큰 제공업체처럼 완전히 무효화되지 않는다.

API 사용성. OpenAI 형태의 API. base URL만 교체. 표준 prompt_tokens_details.cached_tokens 필드.

주의점.

  • DeepSeek 패밀리 모델만 해당. 이 캐시를 다른 모델 패밀리에서 쓸 방법은 없다.
  • 영어 품질은 우수하지만, 가장 어려운 추론 벤치마크에서는 Claude/GPT-5에 뒤진다.

최적 용도. 중국어 워크로드(비용). 입도가 중요한 고빈도 접두부 워크로드(검색 순서가 불안정한 RAG). 비용 민감 배치 작업.


2.5 Alibaba Qwen3 — 하이브리드·인메모리·명명된 캐시 객체 + 암묵

주력 모델(2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. 비전 변형: qwen3-vl-plus, qwen3-vl-flash.

캐시 API. 두 가지 모드:

  • 암묵: 항상 켜짐, GPT처럼. 캐시 부분은 입력 요율의 약 20%로 청구.
  • 명시: 사용자 정의 TTL로 API를 통해 캐시 생성. 적중 약 10%, 쓰기 125%.

실측(2026-05-25):

모델미적중 비용적중 비용적중 캐시율적중 TTFT비고
qwen3-max$0.00553$0.005497,040 / 7,234 (97%)1.53 s캐시 적중은 보고됐으나, 이 날짜에는 게이트웨이 비용 필드에 할인이 반영되지 않았다(프로덕션에서 확인할 것)

TTL 동작. 기본 5분, 캐시 객체별 설정 가능. 명시는 슬라이딩 윈도우, 암묵은 짧은 고정 TTL.

API 사용성. 암묵은 GPT 형태(작업 없음). 명시는 캐시 라이프사이클을 동반한 2단계 흐름.

주의점.

  • 현재 명시 캐싱을 지원하는 것은 qwen3-maxqwen3.5-plus뿐이다.
  • 멀티리전(싱가포르, 미국) 가용성이 순차 출시 중 — 비중국 데이터에 의존하기 전에 리전을 확인할 것.
  • Anthropic/OpenAI 대비 문서에 공백이 있다 — 실증 테스트를 권장한다.

최적 용도. 엄격한 캐시 제어가 필요한 중국 기업 워크로드. 이미 Alibaba Cloud를 쓰고 있는 고객.



3. 나란히 비교

3.1 할인 구조(벤더 문서, 2026-05)

제공업체캐시 쓰기 프리미엄캐시 입력 요율실효 할인
Anthropic Claude+25%기본의 10%약 90% 할인
OpenAI GPT-5없음기본의 50%50% 할인
Google Gemini(암묵)없음기본의 약 25%약 75% 할인
Google Gemini(명시)없음, 단 시간 단위 저장 요금기본의 약 10%상각하면 약 90% 할인
DeepSeek-v4없음기본의 약 25%약 75% 할인
Alibaba Qwen3(암묵)없음기본의 약 20%약 80% 할인
Alibaba Qwen3(명시)+25%기본의 약 10%약 90% 할인

3.2 TTL, 입도 및 영속성

제공업체기본 TTL최대 TTL영속성최소 일치 단위
Claude5분 슬라이딩1시간인메모리(HBM)1,024 tok
GPT-5약 5분약 60분인메모리(HBM)1,024 tok / 128-tok 증분
Gemini(암묵)분 단위비공개인메모리1,024 tok
Gemini(명시)1시간24시간인메모리1,024 tok
DeepSeek-v4시간 단위시간 단위+디스크(SSD)64 tok
Qwen35분설정 가능인메모리약 1,024 tok

3.3 7K 토큰 접두부에서의 실측 지연 시간(2026-05-25)

제공업체 / 모델미적중 총시간적중 TTFT(스트림)지연 개선
claude-haiku-4-5약 3.0 s1.31 s약 2×
claude-sonnet-4-5약 2.0 s1.76 s약 1.2×
claude-opus-4-5약 2.2 s2.08 s약 1.05×
gpt-5.4-mini약 3.6 s0.73 s약 5×
gpt-5.4-nano약 2.2 s1.00 s약 2×
gemini-2.5-flash약 2.5 s약 1.4 s약 1.8×
gemini-2.5-pro약 3.0 s약 1.8 s약 1.7×
deepseek-v4-flash약 4.0 s2.93 s약 1.4×
qwen3-max약 4.8 s1.53 s약 3×

† Claude 행들은 Anthropic 네이티브 /v1/messages 엔드포인트에서 cache_control 마커로 측정한 것이다(3부 §2 참조). Claude의 가장 큰 강점은 비용에 있다(입력 약 88~89% 할인 — 전체 비용 표는 3부 §2 참조). Anthropic이 공개한 수치에 따르면, 10만 토큰 이상의 프롬프트에서는 TTFT 개선이 극적으로 확대된다.

단일 순차 실행, 동시 부하 없음. 당신의 수치는 리전, 시간대, 경쟁 테넌트 부하에 따라 달라진다.


4. 5차원 평가 프레임워크

“Claude가 90% 절감” 같은 헤드라인은 흥미롭지만, 무엇을 골라야 하는지 알려주는 경우는 드물다. 당신의 워크로드에 대해 각 제공업체를 이 다섯 차원에서 채점하고, 당신이 중요시하는 바에 따라 가중치를 두라.

4.1 백만 토큰당 실효 비용(적중률 가중)

기본 가격을 비교하지 말고, 실제 적중률에서의 기대 비용을 비교하라:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

70% 접두부 반복(전형적인 챗봇) 계산 예:

  • Claude: 약 90% 할인 × 0.7 적중 + 25% 쓰기 × 0.3 → 실효 ≈ base × 0.45
  • GPT-5: 약 50% × 0.7 + 0 → 실효 ≈ base × 0.65
  • Gemini 암묵: 약 75% × 0.7 + 0 → 실효 ≈ base × 0.48
  • DeepSeek-v4: 약 75% × 0.7 + 0 → 실효 ≈ base × 0.48

각 벤더의 실제 기본 요율(제공업체마다 다름)을 곱해야 비교 가능한 달러 수치를 얻는다. 채점: 당신의 워크로드에 대해 effective_cost를 계산하라. 낮을수록 좋다.

4.2 적중률 예측 가능성

  • 명시 캐싱 진영(Claude, Qwen 명시, Gemini 명시) — 예측 가능성이 높다. 표시했으면 (TTL 내에서) 적중한다.
  • 자동 캐싱 진영(GPT-5, DeepSeek-v4, Gemini 암묵, Qwen 암묵) — 접두부 유사도 제공업체 부하(LRU 축출)에 달려 있다.

비용과 연동된 SLA라면 명시를 선호하라. 최선 노력 최적화라면 자동도 괜찮다.

4.3 TTL ↔ 트래픽 리듬 적합도

트래픽 패턴필요한 것
연속(호출 간격이 초 단위)어느 제공업체의 기본값이든 작동
세션 단위(분 단위)5~60분 TTL(Claude, GPT-5, Qwen)
버스트(버스트 간격이 시간 단위)1시간 이상 TTL(Claude 1h, Gemini 명시, DeepSeek-v4)
산발적(하루 몇 건 질의)24시간 TTL(Gemini 명시) 또는 콜드 쓰기 수용

4.4 캐시 미적중 시 지연 시간

적중 시 빠르지만 미적중 시 느린 제공업체는, 적중률이 높지 않으면 여전히 문제다. §3.3의 수치를 모두 비교하고 기대 적중률로 가중치를 두라.

4.5 API 사용성과 마이그레이션 비용

  • 최저 마이그레이션: GPT-5 ↔ DeepSeek-v4(둘 다 OpenAI 형태, 둘 다 자동 캐싱).
  • 중간: GPT-5 → Gemini 암묵(SDK는 다르지만 다시 쓸 캐시 코드는 없음).
  • 높음: GPT-5 → Claude(cache_control 추가, 프롬프트 계층 재구성 필수).
  • 최고: 게이트웨이 없이 단일 → 다중 제공업체로(여러 캐시 API).

5. 워크로드 형태별 빠른 결론

워크로드선택이유
영어 채팅, 글로벌 사용자claude-haiku-4-5 또는 gpt-5.4-nano깊은 캐시 할인 + 작고 빠른 모델
중국어 채팅, 본토deepseek-v4-flash 또는 qwen3.5-flash시간 단위 캐시 + 중국어 저비용
영어 RAG(고품질)claude-sonnet-4-5 + 멀티 중단점계층화 프롬프트 구조를 효율적으로 캐싱
중국어 RAG(비용 민감)deepseek-v4-flash64 토큰 입도가 검색 재배열에 관대
장문 문서 Q&A(산발적)gemini-2.5-pro 명시24시간 TTL, 이를 위해 설계됨
기존 GPT 코드베이스, 재작성 없음gpt-5.4-mini(현상 유지)약 50% 절감 무료로
복잡한 에이전트(15단계 이상)claude-sonnet-4-5 + 4 중단점 cache_control에이전트 트래픽에서 85% 이상 적중률
다중 제공업체 이식성게이트웨이, 임의 모델SDK 하나, 인증 헤더 하나

6. 마이그레이션 고려사항

채점 결과가 바꾸라고 한다면, 계획해야 할 세 가지가 있다.

데이터 이동. 캐싱된 접두부는 제공업체 간에 이전되지 않는다 — 모든 전환은 콜드 스타트다. 워밍업 동안 평소보다 높은 비용이 몇 시간 지속될 것을 예산에 반영하라.

프롬프트 재설계. Anthropic의 멀티 중단점 설계는 사실 어느 제공업체에도 더 나은 계층화 프롬프트 구조를 장려한다 — 한 번 리팩터링하면 비-Claude 경로에도 이득이 된다.

게이트웨이를 통한 헤징. 확신이 없다면 Token Gateway를 통해 라우팅하라. 단일 벤더에 묶이지 않고 선택지를 유지하지만, 홉이 하나 늘고 (게이트웨이에 따라) 벤더 고유 캐시 제어에 대한 접근을 잃을 수 있다는 대가가 있다. Synthorai 게이트웨이가 실제로 무엇을 하는지, 그리고 어떤 주장을 의심해야 하는지는 3부 §9를 참조하라.


7. 시간에 따라 바뀌는 것

이 비교의 내구성에 대한 한마디: 이 글의 수치는 변동할 것이다. 캐싱은 가격 경쟁 기능이 되었고, 제공업체들은 몇 달마다 제공 내용을 갱신한다. 주목할 두 가지:

  • TTL 연장. Anthropic의 1시간 옵션은 GA다. Gemini는 여러 날까지 늘어날 수 있다. TTL 불안은 완화될 것으로 예상된다.
  • 입도. OpenAI와 Anthropic은 결국 1,024 토큰 최소값을 폐지할 가능성이 높다. DeepSeek의 64 토큰 기준이 새로운 기대치를 세웠다.

할인이 수렴하면, 차별화 요인은 헤드라인 절감액이 아니라 API 사용성과 지연 시간이 된다.


다음 편: 3부 — 프롬프트 캐싱 튜토리얼: 동작하는 Python은 위의 아키텍처 그림을 실행 가능한 코드로 바꾸고, §3.3 지연 표를 당신이 직접 실행할 수 있는 벤치마크로 재현한다.


FAQ

모든 것을 고려할 때, 가장 저렴한 프롬프트 캐싱을 제공하는 LLM 제공업체는? 적중률이 동등(약 75%)할 때, 우리의 2026-05 실측에서는 중국어 워크로드는 deepseek-v4-flash, 영어는 gemini-2.5-flash 암묵이 백만 토큰당 실효 비용에서 가장 저렴하다. claude-sonnet-4-5는 단일 호출 할인이 가장 깊지만(약 90%) 기본 가격이 더 높다 — 적중률이 85%를 넘을 때 우위에 선다. 자신의 적중률을 §4.1 공식에 대입해 보라.

왜 Gemini는 저용량 워크로드에서 더 비싼가? 명시 캐시의 시간 단위 저장 요금이, 캐시를 자주 질의하지 않는 한 할인을 잠식한다. 저용량 워크로드에는 Gemini 암묵 캐싱(저장 요금 없음, 약 25% 할인)을 쓰라.

Claude의 cache_control을 OpenAI에서 쓸 수 있나? 직접은 안 된다 — 별개의 캐시 구현이다. OpenAI 호환 /chat/completions 엔드포인트에서 이 필드는 비-Anthropic 모델에 대해 보통 무동작이다(그 모델들은 어차피 자동 캐싱한다). Claude의 경우, 마커를 포함한 Anthropic 네이티브 /v1/messages 엔드포인트를 사용하라.

DeepSeek의 MLA 아키텍처는 독점인가? 논문(DeepSeek-AI 2024)은 공개되어 있다. 다른 제공업체도 MLA 식 KV 압축을 채택할 수 있지만, 그러려면 기반 모델 재학습이 필요하다 — 런타임 스위치가 아니다. 2026-05 기준, 이를 프로덕션에서 제공하는 주요 제공업체는 여전히 DeepSeek뿐이다.

오픈소스 셀프호스트 모델은 어떤가? vLLM, SGLang 및 기타 추론 엔진은 접두부 캐싱을 네이티브로 지원한다(PagedAttention 논문이 그 기반이다). H100/H200에서 셀프호스트한다면 LMCache 등으로 디스크 영속화 캐싱을 구현할 수 있다. 여기서의 가격 분석은 매니지드 서비스에만 적용된다 — 셀프호스트 경제성은 완전히 다르다.

왜 이 비교에 Mistral, Cohere, Llama API 제공업체가 없나? 2026-05 기준, 그들의 캐싱 제공은 성숙도가 낮다. Mistral의 캐싱은 얼리 액세스, Cohere는 명시 캐싱을 노출하지 않으며, Llama API 제공업체(Groq, Together, Replicate)는 편차가 크다. 기능 세트가 안정되면 다시 살펴보라.


출처: Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). 실측 수치는 https://synthorai.io/v1에서 2026-05-25에 측정.

← 블로그로 돌아가기