어떤 LLM 프롬프트 캐시가 가장 저렴할까? 5개 제공업체 비교 (2026)

2026년 5월 23일 · 업데이트 2026년 7월 21일 · prompt-cache · llm-providers · evaluation

1. LLM 캐시 유형 분류
1.1 제어 방식: 명시적, 암시적, 하이브리드
1.2 저장 방식: 메모리와 디스크
1.3 세분성: 일치 단위
1.4 객체 모델: 호출별 마커와 이름 있는 캐시 객체
2. 제공업체별 상세 분석
2.1 Anthropic Claude — 명시적, 메모리, 1,024-Token 단위
2.2 OpenAI GPT-5.x — 자동, 메모리, 1,024-Token 단위
2.3 Google Gemini — 하이브리드, 메모리, 이름 있는 캐시 객체
2.4 DeepSeek-v4 — 자동, 디스크, 64-Token 단위
2.5 Alibaba Qwen3 — 하이브리드, 메모리, 이름 있는 캐시 객체 + 암시적 방식
3. 항목별 비교
3.1 할인 구조(업체 문서, 2026-05)
3.2 TTL, 세분성, 저장 방식
3.3 7K-Token Prefix에서 측정한 Latency(2026-05-25)
4. 5개 평가 기준
4.1 Hit Rate를 반영한 Token 100만 개당 실질 비용
4.2 Hit Rate 예측 가능성
4.3 TTL과 트래픽 주기의 적합성
4.4 Cache Miss 시 Latency
4.5 API 사용성과 마이그레이션 비용
5. Workload 형태별 빠른 결론
6. 마이그레이션 고려 사항
7. 시간이 지나면 달라지는 점
FAQ

TL;DR — 주요 LLM 제공업체 5곳은 프롬프트 캐시를 전혀 다른 형태로 제공합니다. Claude는 명시적 마커를 사용하고, GPT-5.x와 DeepSeek-v4는 완전 자동 방식입니다. Gemini와 Qwen은 암시적 방식과 명시적 방식을 함께 제공하며, DeepSeek는 아키텍처 차원에서 디스크를 활용합니다. 이 글에서는 기능별 비교와 함께, 비용, hit rate 예측 가능성, latency, TTL 적합성, API 사용성이라는 5개 평가 기준으로 자신의 workload에 맞는 서비스를 고르는 방법을 설명합니다. 아키텍처 배경은 1부: 캐시 원리에서, 측정값과 실행 가능한 Python 코드는 3부: 튜토리얼에서 확인할 수 있습니다.

시리즈: 5부 중 2부 · 이전 글: 1부 — 캐시 원리 · 다음 글: 3부 — 실행 가능한 코드 튜토리얼 · 4부 — Use Case별 최적의 LLM · 5부 — LangChain 연동

1. LLM 캐시 유형 분류

제공업체별로 살펴보기 전에, 네 가지 설계 축부터 정리하겠습니다.

1.1 제어 방식: 명시적, 암시적, 하이브리드

명시적 — 개발자가 프롬프트에서 캐시할 부분을 지정합니다(Anthropic Claude의 cache_control). 제어 수준은 가장 높지만 코드를 수정해야 합니다.
암시적 / 자동 — 제공업체가 일치하는 prefix를 자동으로 감지합니다(OpenAI GPT-5.x, DeepSeek-v4). 코드를 수정할 필요는 없지만 hit를 강제할 방법도 없습니다.
하이브리드 — 두 방식을 모두 제공하며 호출마다 선택할 수 있습니다(Gemini, Qwen).

1.2 저장 방식: 메모리와 디스크

이 차이는 API 형태가 아니라 제공업체의 KV cache 아키텍처에서 결정됩니다.

메모리(HBM) — 캐시가 GPU 메모리에 저장됩니다. 수명이 짧고(수분), 최소 chunk가 큽니다(1,024 token). 대부분의 제공업체가 이 방식을 기본으로 사용합니다.
디스크 — 캐시를 SSD/NVMe에 저장하므로 TTL이 훨씬 길고 더 세밀하게 일치시킬 수 있습니다. DeepSeek는 KV cache를 약 4× 줄이는 Multi-head Latent Attention(MLA) 압축을 기반으로 이 방식을 대규모로 운영합니다(DeepSeek-AI, 2024).

1.3 세분성: 일치 단위

얼마나 짧은 prefix부터 할인받을 수 있을까요?

64 tokens — DeepSeek(업계 최소)
128 tokens — OpenAI(일치 증가 단위)
1,024 tokens — Claude, OpenAI, Gemini, Qwen에서 캐시할 수 있는 최소 chunk

단위가 작을수록 prefix 일부만 겹쳐도 인정됩니다. 프롬프트가 조금씩 달라지는 경우 훨씬 유리합니다.

1.4 객체 모델: 호출별 마커와 이름 있는 캐시 객체

호출별 마커 — 모든 요청에 캐시할 콘텐츠를 직접 넣고 제공업체가 이를 hash 처리합니다(Claude, OpenAI, DeepSeek, Qwen implicit).
이름 있는 캐시 객체 — 개발자가 별도 API 호출로 캐시를 만들고 cache_id를 받은 뒤, 이후 요청에서 참조합니다(Gemini explicit, Qwen explicit). 처리 단계가 늘어나는 대신 lifecycle을 직접 제어할 수 있습니다.

이 네 가지 축은 서로 영향을 줍니다. 각 제공업체의 캐시 특성은 이 축들의 조합으로 설명할 수 있습니다. 다음 절부터 제공업체별로 자세히 살펴보겠습니다.

2. 제공업체별 상세 분석

2.1 Anthropic Claude — 명시적, 메모리, 1,024-Token 단위

주요 모델(2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

GPT-5.6 업데이트(2026-06): GPT-5.6 제품군부터 아래 규칙이 바뀌었습니다. 이제 캐시 쓰기에는 입력 요금의 1.25x가 부과되고, 안정적으로 일치시키려면 prompt_cache_key가 필요하며, 명시적인 30분 TTL breakpoint가 추가되었습니다. 이 글의 표는 GPT-5.5/5.4 동작을 기준으로 합니다. 5.6에 관한 자세한 내용은 GPT-5.6 비용 가이드와 직접 측정한 캐시 최소 크기를 참고하세요.

캐시 API. system 또는 messages 배열 어디에나 cache_control breakpoint를 최대 4개까지 지정할 수 있습니다. Cache hit 비용은 기본 입력 요금의 약 10%이며, 캐시 쓰기에는 125%, 즉 25%의 추가 요금이 붙습니다. 기본 TTL은 hit가 발생할 때마다 갱신되는 5분 sliding 방식이며, 1시간 옵션도 있습니다.

요금 구조. Anthropic은 모델별 token 100만 개당 요금을 가격 페이지에 공개하고 있으며, 캐시 할인율은 제품군 전체에서 동일합니다. claude-sonnet-4-5에 8,000-token system prompt를 넣어 하루 100K회 호출하면, prefix가 warm 상태에 들어간 뒤 호출당 비용이 약 8–10× 줄어듭니다. 한 번만 hit해도 손익분기점을 넘습니다.

TTL 동작. 기본값은 5분 sliding 방식입니다. Hit가 발생할 때마다 만료 시점이 다시 5분 뒤로 밀립니다. 1시간 TTL은 쓰기 비용이 두 배지만, idle gap이 5분을 넘는 workload에는 필수입니다.

세분성. 최소 1,024-token입니다. 정확한 token sequence를 기준으로 hash를 계산하므로, 앞부분에서 문자 하나만 바뀌어도 전체 prefix가 무효화됩니다.

API 사용성. 가장 좋습니다. 여러 breakpoint를 사용해 “절대 바뀌지 않는 부분”, “가끔 바뀌는 부분”, “task마다 바뀌는 부분”을 따로 캐시할 수 있습니다. 프롬프트 영역별 변경 주기가 다른 agent와 RAG workload에 특히 유리합니다.

주의할 점.

cache_control을 추가하지 않으면 캐시가 전혀 적용되지 않습니다. GPT나 DeepSeek와 달리 암시적 fallback이 없습니다.
Cache hash는 tool/function 배열 내부의 순서에도 영향을 받습니다. 항상 결정론적으로 정렬하세요.
명시적으로 keep-alive하지 않으면 기본 TTL이 5분이므로 간헐적으로 실행되는 batch job에는 잘 맞지 않습니다.
Gateway를 통해 Claude를 호출한다면, 해당 gateway가 cache_control 마커를 포함한 Anthropic native /v1/messages 경로를 지원하는지 확인하세요. OpenAI 호환 /chat/completions 경로는 일반적으로 마커를 전달하지 않습니다. Gateway의 base URL을 지정한 Anthropic SDK를 사용해야 합니다.

적합한 용도. Long-context agent, 안정적인 system prompt를 쓰는 multi-turn chat, 계층형 캐시를 사용하는 구조화된 RAG.

2.2 OpenAI GPT-5.x — 자동, 메모리, 1,024-Token 단위

주요 모델(2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. 코드용 Codex variant는 gpt-5.2-codex, gpt-5.3-codex입니다.

캐시 API. 별도로 할 일은 없습니다. 1,024 tokens 이상인 모든 요청에 자동 적용됩니다. Cache hit에는 입력 요금의 50%가 부과되며 쓰기 추가 요금은 없습니다. 일치 증가 단위는 128 tokens입니다.

요금 구조. OpenAI는 token 100만 개당 요금을 가격 페이지에 공개합니다. 캐시된 입력은 50% 할인되며 출력 요금은 그대로입니다.

측정 결과(2026-05-25, 약 6,900-token system prompt):

모델	Miss 총비용	Hit 총비용	Hit cache 비율	Hit stream TTFT
`gpt-5.4-nano`	$0.00131	$0.00074 (−44%)	5,888 / 6,887 (85%)	1.00 s
`gpt-5.4-mini`	$0.00267	$0.00257*	6,400 / 6,887 (93%)	0.73 s

* gpt-5.4-mini의 hit 구간 completion이 miss 구간보다 훨씬 짧았습니다. 따라서 비용 차이에는 캐시 할인과 completion 길이 변화가 함께 반영되어 있습니다. Latency가 5× 줄어든 결과(3.63 → 0.73 s)가 더 명확한 지표입니다.

TTL 동작. 정확한 값은 공개되지 않았습니다. 현장 보고에 따르면 부하와 prefix 인기도에 따라 5–60분 정도입니다. 자주 사용되는 공통 prefix는 LRU에서 우선순위가 높아 더 오래 유지됩니다.

API 사용성. 간단합니다. 기존 코드를 그대로 사용할 수 있습니다. Hit rate를 측정하려면 prompt_tokens_details.cached_tokens를 log로 남기세요.

주의할 점.

Hit를 강제할 수 없습니다. 트래픽의 prefix가 모두 다르면 아무런 이득도 얻지 못합니다.
50% 할인은 Claude/DeepSeek의 90/75%보다 작습니다(Gemini implicit의 약 25%와 일치).
Streaming에서는 마지막 chunk에만 cache hit가 표시되기도 합니다. 계측할 때 주의하고 stream_options={"include_usage": True}를 전달하세요.

적합한 용도. 추가 개발 비용이 절감액보다 큰 기존 GPT 코드베이스. Prefix 반복률이 자연스럽게 높은 burst형 트래픽.

2.3 Google Gemini — 하이브리드, 메모리, 이름 있는 캐시 객체

주요 모델(2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

캐시 API. 두 가지 방식을 제공합니다.

암시적: GPT처럼 자동으로 적용됩니다. 캐시된 token에는 입력 요금의 약 25%가 부과됩니다. 저장 비용과 사전 설정은 없습니다.
명시적: 별도 API 호출로 cachedContent 객체를 만듭니다. 이후 요청에서는 이름으로 참조합니다. 캐시된 token 요금은 약 10%로 더 저렴하지만, token 100만 개당 시간 단위 저장 요금을 내야 합니다.

요금 구조. Long context는 Gemini의 강점입니다. 요금은 context 길이 구간에 따라 달라지며, 200K 이하와 200K 초과 구간에서 token당 요금이 달라집니다.

측정 결과(2026-05-25):

모델	Miss 비용	Hit 비용(stream)	Hit cache 비율
`gemini-2.5-flash`	$0.00198	$0.00024 (−88%)	7,140 / 7,322 (97%)
`gemini-2.5-pro`	$0.00824	$0.00205 (−75%)	6,120 / 7,328 (84%)

TTL 동작. 암시적 방식은 수분이지만 구체적인 값은 공개되지 않았습니다. 명시적 방식은 개발자가 설정하며, 기본값은 1시간이고 최대 24시간입니다.

API 사용성. 명시적 캐시에는 생성 후 참조하는 2단계 흐름이 필요합니다. cachedContent의 생성, TTL 갱신, 삭제 lifecycle은 직접 관리해야 합니다.

주의할 점.

호출량이 적은 명시적 캐시에서는 저장 요금이 치명적입니다. 항상 호출 빈도를 기준으로 손익분기점을 계산하세요.
암시적 cache hit rate는 일정하지 않습니다. 비용 예측의 전제로 삼으면 안 됩니다.
Cache 객체는 region에 종속됩니다. Multi-region 앱에서는 캐시를 region별로 만들어야 합니다.
gemini-*-pro는 reasoning 모델입니다. max_tokens가 작으면 hidden thinking이 completion을 모두 사용해 completion_tokens=0으로 표시됩니다. 사용자에게 응답하는 경로에서는 max_tokens를 256 이상으로 설정하세요.

적합한 용도. 1시간에 10회 이상 질의하는 대용량 문서(20K tokens 초과), 동영상 Q&A, 기업 PDF를 사용하는 multi-modal RAG.

2.4 DeepSeek-v4 — 자동, 디스크, 64-Token 단위

주요 모델(2026-05): deepseek-v4-flash(범용), deepseek-v4-flash(이 세대에서는 coder workload도 지원).

캐시 API. GPT처럼 자동이지만, MLA 압축으로 캐시 크기를 줄여 디스크에 저장할 수 있습니다. Cache hit에는 입력 요금의 약 25%가 부과되며 쓰기 추가 요금은 없습니다. 최소 일치 단위는 64 tokens입니다.

요금 구조. DeepSeek 가격 페이지에는 위안화 기준 요금이 공개되어 있습니다. Hit 시 입력 비용이 약 75% 줄어듭니다.

측정 결과(2026-05-25):

모델	Miss 비용	Hit 비용	Hit cache 비율	Hit TTFT
`deepseek-v4-flash`	$0.00091	$0.00023 (−74%)	6,784 / 7,101 (96%)	2.93 s

TTL 동작. 수시간이며, 트래픽이 많은 prefix는 더 오래 유지되기도 합니다. 디스크에 저장하므로 다른 업체의 메모리 캐시라면 제거될 GPU 메모리 압박 상황에서도 캐시가 유지됩니다.

세분성. 최소 64-token으로 업계에서 가장 작습니다. 1,024-token 단위를 사용하는 업체와 달리, 프롬프트를 조금 수정해도 대부분의 prefix가 계속 일치합니다.

API 사용성. OpenAI 형식의 API라서 base URL만 바꾸면 됩니다. 표준 prompt_tokens_details.cached_tokens 필드를 사용합니다.

주의할 점.

DeepSeek 제품군 모델에서만 사용할 수 있습니다. 다른 모델 제품군에는 이 캐시를 적용할 수 없습니다.
영어 품질은 뛰어나지만 가장 어려운 reasoning benchmark에서는 Claude/GPT-5.x보다 낮습니다.

적합한 용도. 비용이 중요한 중국어 workload, 세분성이 중요한 고빈도 prefix workload(retrieval 순서가 일정하지 않은 RAG), 비용에 민감한 batch job.

2.5 Alibaba Qwen3 — 하이브리드, 메모리, 이름 있는 캐시 객체 + 암시적 방식

주요 모델(2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Vision variant는 qwen3-vl-plus, qwen3-vl-flash입니다.

캐시 API. 두 가지 방식을 제공합니다.

암시적: GPT처럼 항상 자동 적용됩니다. 캐시된 부분에는 입력 요금의 약 20%가 부과됩니다.
명시적: API로 custom TTL을 지정한 캐시를 만듭니다. Hit 요금은 약 10%이며 쓰기에는 125%가 부과됩니다.

측정 결과(2026-05-25):

모델	Miss 비용	Hit 비용	Hit cache 비율	Hit TTFT	비고
`qwen3-max`	$0.00553	$0.00549	7,040 / 7,234 (97%)	1.53 s	Cache hit가 보고되었지만 이날 gateway 비용 필드에는 할인이 반영되지 않았음(운영 환경에서 확인 필요)

TTL 동작. 기본값은 5분이며 캐시 객체별로 설정할 수 있습니다. 명시적 방식은 sliding window를 사용하고, 암시적 방식은 짧은 고정 TTL을 사용합니다.

API 사용성. 암시적 방식은 GPT 형식이라 별도 작업이 필요 없습니다. 명시적 방식은 cache lifecycle을 포함한 2단계 흐름입니다.

주의할 점.

현재 명시적 캐시는 qwen3-max와 qwen3.5-plus만 지원합니다.
Multi-region(Singapore, US) 지원은 순차적으로 확대 중입니다. 중국 외 지역의 데이터에 사용하기 전 지원 region을 확인하세요.
Anthropic/OpenAI보다 문서가 부족합니다. 직접 검증하는 편이 좋습니다.

적합한 용도. 세밀한 캐시 제어가 필요한 중국 기업 workload, 이미 Alibaba Cloud를 사용하는 고객.

3. 항목별 비교

3.1 할인 구조(업체 문서, 2026-05)

제공업체	캐시 쓰기 추가 요금	캐시된 입력 요금	실질 할인율
Anthropic Claude	+25%	기본 요금의 10%	약 90% 할인
OpenAI GPT-5.5 / 5.4	없음	기본 요금의 50%	50% 할인
Google Gemini (implicit)	없음	기본 요금의 약 25%	약 75% 할인
Google Gemini (explicit)	없음, 단 시간당 저장 요금 부과	기본 요금의 약 10%	비용 분산 시 약 90% 할인
DeepSeek-v4	없음	기본 요금의 약 25%	약 75% 할인
Alibaba Qwen3 (implicit)	없음	기본 요금의 약 20%	약 80% 할인
Alibaba Qwen3 (explicit)	+25%	기본 요금의 약 10%	약 90% 할인

3.2 TTL, 세분성, 저장 방식

제공업체	기본 TTL	최대 TTL	저장 방식	최소 일치 단위
Claude	5분 sliding	1시간	메모리(HBM)	1,024 tok
GPT-5.5 / 5.4	약 5분	약 60분	메모리(HBM)	1,024 tok / 128-tok 증가 단위
Gemini (implicit)	수분	비공개	메모리	1,024 tok
Gemini (explicit)	1시간	24시간	메모리	1,024 tok
DeepSeek-v4	수시간	수시간 이상	디스크(SSD)	64 tok
Qwen3	5분	설정 가능	메모리	약 1,024 tok

3.3 7K-Token Prefix에서 측정한 Latency(2026-05-25)

제공업체 / 모델	Miss 전체	Hit TTFT(stream)	Latency 개선
`claude-haiku-4-5` †	~3.0 s	1.31 s	~2×
`claude-sonnet-4-5` †	~2.0 s	1.76 s	~1.2×
`claude-opus-4-5` †	~2.2 s	2.08 s	~1.05×
`gpt-5.4-mini`	~3.6 s	0.73 s	~5×
`gpt-5.4-nano`	~2.2 s	1.00 s	~2×
`gemini-2.5-flash`	~2.5 s	~1.4 s	~1.8×
`gemini-2.5-pro`	~3.0 s	~1.8 s	~1.7×
`deepseek-v4-flash`	~4.0 s	2.93 s	~1.4×
`qwen3-max`	~4.8 s	1.53 s	~3×

† Claude 행은 Anthropic native /v1/messages endpoint에서 cache_control 마커를 사용해 측정했습니다(3부 §2 참고). Claude의 가장 큰 장점은 비용입니다. 입력 비용이 약 88–89% 줄어듭니다. 전체 비용표는 3부 §2에서 확인할 수 있습니다. Anthropic이 공개한 수치에 따르면 100K tokens 이상의 프롬프트에서는 TTFT 개선 폭이 크게 증가합니다.

동시 부하 없이 순차적으로 한 번 실행한 결과입니다. Region, 시간대, 다른 tenant의 부하에 따라 측정값은 달라질 수 있습니다.

4. 5개 평가 기준

“Claude는 90%를 절감한다” 같은 문구는 흥미롭지만, 실제 선택에는 별 도움이 되지 않습니다. 자신의 workload를 기준으로 다음 다섯 항목에서 각 제공업체에 점수를 매긴 뒤, 중요도에 따라 가중치를 적용하세요.

4.1 Hit Rate를 반영한 Token 100만 개당 실질 비용

기본 요금을 비교하지 말고 실제 hit rate를 반영한 예상 비용을 비교해야 합니다. LLM 비용 계산기에 직접 수치를 입력하거나, 제공업체별 최신 LLM 가격 비교를 확인하세요.

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Prefix 반복률이 70%인 일반적인 chatbot의 계산 예시는 다음과 같습니다.

Claude: 약 90% 할인 × 0.7 hit + 25% 쓰기 × 0.3 → 실질 비용 ≈ 기본 요금 × 0.45
GPT-5.5: 약 50% × 0.7 + 0 → 실질 비용 ≈ 기본 요금 × 0.65
Gemini implicit: 약 75% × 0.7 + 0 → 실질 비용 ≈ 기본 요금 × 0.48
DeepSeek-v4: 약 75% × 0.7 + 0 → 실질 비용 ≈ 기본 요금 × 0.48

업체마다 기본 요금이 다르므로 각 업체의 실제 기본 요금을 곱해야 비교 가능한 금액이 나옵니다. 평가 방법은 자신의 workload에 맞춰 effective_cost를 계산하고, 낮을수록 높은 점수를 주는 것입니다.

4.2 Hit Rate 예측 가능성

명시적 캐시(Claude, Qwen explicit, Gemini explicit) — 예측 가능성이 높습니다. 지정한 부분은 TTL 내에서 hit합니다.
자동 캐시(GPT-5.x, DeepSeek-v4, Gemini implicit, Qwen implicit) — prefix 유사도뿐 아니라 제공업체 부하에 따른 LRU eviction의 영향도 받습니다.

비용과 연결된 SLA가 있다면 명시적 방식을 선택하세요. Best-effort 최적화라면 자동 방식으로도 충분합니다.

4.3 TTL과 트래픽 주기의 적합성

트래픽 패턴	필요한 조건
연속형(호출 간격이 수초)	모든 제공업체의 기본값으로 충분
세션형(수분)	5–60분 TTL(Claude, GPT-5.x, Qwen)
Burst형(burst 간격이 수시간)	1시간 이상 TTL(Claude 1h, Gemini explicit, DeepSeek-v4)
간헐형(하루에 몇 번 질의)	24시간 TTL(Gemini explicit) 또는 cold write 감수

4.4 Cache Miss 시 Latency

Hit가 빠르더라도 miss가 느린 제공업체는 hit rate가 높지 않으면 문제가 됩니다. §3.3의 두 수치를 모두 비교하고 예상 hit rate에 따라 가중치를 적용하세요.

4.5 API 사용성과 마이그레이션 비용

마이그레이션 비용이 가장 낮음: GPT-5.x ↔ DeepSeek-v4(둘 다 OpenAI 형식이며 자동 캐시)
중간: GPT-5.x → Gemini implicit(SDK는 다르지만 캐시 코드를 다시 작성할 필요 없음)
높음: GPT-5.x → Claude(cache_control을 추가하고 프롬프트 계층을 재구성해야 함)
가장 높음: Gateway 없이 단일 제공업체에서 multi-provider로 전환(여러 cache API를 사용해야 함)

5. Workload 형태별 빠른 결론

Workload	추천	이유
영어 chat, 전 세계 사용자	`claude-haiku-4-5` 또는 `gpt-5.4-nano`	높은 캐시 할인율 + 작고 빠른 모델
중국어 chat, 중국 본토	`deepseek-v4-flash` 또는 `qwen3.5-flash`	시간 단위 캐시 + 낮은 중국어 처리 비용
영어 RAG(고품질)	`claude-sonnet-4-5` + multi-breakpoint	계층형 프롬프트 구조를 효율적으로 캐시
중국어 RAG(비용 중시)	`deepseek-v4-flash`	64-token 단위이므로 retrieval 순서 변경에 강함
긴 문서 Q&A(간헐적)	`gemini-2.5-pro` explicit	이 용도에 적합한 24시간 TTL
기존 GPT 코드베이스, 수정 없음	`gpt-5.4-mini`(현행 유지)	별도 작업 없이 약 50% 절감
복잡한 agent(15단계 이상)	`claude-sonnet-4-5` + 4-BP `cache_control`	Agent 트래픽에서 85% 이상의 hit rate
Multi-provider 이식성	Gateway, 모든 모델	SDK 하나, 인증 header 하나

6. 마이그레이션 고려 사항

평가 결과 제공업체를 바꾸기로 했다면 다음 세 가지를 준비해야 합니다.

데이터 이동. 캐시된 prefix는 제공업체 간에 이전되지 않습니다. 전환할 때마다 cold start가 발생합니다. Warm-up이 끝날 때까지 수시간 동안 평소보다 비용이 더 많이 든다고 가정하세요.

프롬프트 재설계. Anthropic의 multi-breakpoint 방식은 프롬프트를 계층형으로 구성하도록 유도합니다. 이 구조는 사실 다른 제공업체에서도 더 효율적입니다. 한 번 refactoring하면 Claude 이외의 경로에서도 효과를 볼 수 있습니다.

Gateway를 통한 hedging. 확신이 없다면 Token Gateway를 통해 routing하세요. 제공업체 한 곳에 종속되지 않고 선택지를 유지할 수 있습니다. 대신 hop이 하나 늘어나며, gateway에 따라 업체별 캐시 제어 기능을 사용하지 못할 수도 있습니다. Synthorai gateway가 실제로 지원하는 기능과 의심해 봐야 할 주장은 3부 §9에서 설명합니다.

7. 시간이 지나면 달라지는 점

이 비교의 수치는 계속 바뀔 수 있습니다. 캐시는 가격 경쟁의 핵심 기능이 되었고, 제공업체들은 몇 달마다 제품을 업데이트합니다. 다음 두 가지를 지켜보세요.

TTL 연장. Anthropic의 1시간 옵션은 GA 상태이며, Gemini는 수일 단위까지 늘어날 수 있습니다. TTL에 대한 부담은 점차 줄어들 것입니다.
세분성. OpenAI와 Anthropic도 결국 1,024-token 최소 단위를 낮출 가능성이 큽니다. DeepSeek의 64-token 기준이 새로운 기대치가 되었습니다.

할인율이 비슷해지면 차별점은 표면적인 절감률이 아니라 API 사용성과 latency가 됩니다.

다음 글: 3부 — 프롬프트 캐시 튜토리얼: 실행 가능한 Python에서는 위의 아키텍처를 실행 가능한 코드로 구현하고, §3.3의 latency 표를 직접 재현할 수 있는 benchmark를 제공합니다.

FAQ

모든 조건을 고려하면 어느 LLM 제공업체의 프롬프트 캐시가 가장 저렴한가요? Hit rate가 약 75%로 같을 때, 2026-05 측정 결과에서는 중국어 workload에 deepseek-v4-flash, 영어 workload에 gemini-2.5-flash implicit이 token 100만 개당 실질 비용이 가장 낮았습니다. claude-sonnet-4-5는 단일 호출 할인율이 약 90%로 가장 높지만 기본 요금도 비쌉니다. Hit rate가 85%를 넘으면 Claude가 유리합니다. 자신의 hit rate를 §4.1 공식에 대입해 계산하세요.

호출량이 적으면 Gemini 비용이 더 비싼 이유는 무엇인가요? 명시적 캐시에는 시간당 저장 요금이 붙기 때문에 캐시를 자주 질의하지 않으면 할인분이 상쇄됩니다. 호출량이 적은 workload에서는 저장 요금이 없고 약 25% 할인되는 Gemini implicit 캐시를 사용하세요.

Claude의 cache_control을 OpenAI에서도 사용할 수 있나요? 직접 사용할 수 없습니다. 서로 다른 캐시 구현입니다. OpenAI 호환 /chat/completions endpoint에서 이 필드는 일반적으로 Anthropic 이외의 모델에 아무 영향도 주지 않습니다. 어차피 해당 모델은 자동 캐시를 사용합니다. Claude에는 마커를 포함한 Anthropic native /v1/messages endpoint를 사용하세요.

DeepSeek의 MLA 아키텍처는 독점 기술인가요? 논문(DeepSeek-AI 2024)은 공개되어 있습니다. 다른 제공업체도 MLA 방식의 KV 압축을 도입할 수 있지만 base model을 다시 학습해야 합니다. Runtime에서 켤 수 있는 기능이 아닙니다. 2026-05 기준으로 이를 production에 적용한 주요 제공업체는 DeepSeek뿐입니다.

Open-source self-hosted 모델은 어떤가요? vLLM, SGLang 등 inference engine은 prefix 캐시를 기본 지원합니다. 기반 기술은 PagedAttention 논문입니다. H100/H200에서 직접 hosting한다면 LMCache 등을 이용해 디스크 기반 캐시를 구현할 수 있습니다. 이 글의 가격 분석은 managed service에만 적용됩니다. Self-hosted의 비용 구조는 완전히 다릅니다. Router를 직접 운영하지 않고 multi-provider routing을 사용하려면 managed LiteLLM 대안을 통해 동일한 제공업체와 캐시를 유지하면서 하나의 API로 통합할 수 있습니다. 어떤 open-weight 모델이 어디에서 캐시를 지원하고, 어떤 host가 이를 제품화했는지는 open-weight LLM의 프롬프트 캐시에 정리했습니다.

이 비교에 Mistral, Cohere, Llama API 제공업체가 없는 이유는 무엇인가요? 2026-05 기준으로 이들의 캐시 기능은 아직 성숙하지 않았습니다. Mistral 캐시는 early access 단계이고, Cohere는 명시적 캐시를 제공하지 않습니다. Llama API 제공업체(Groq, Together, Replicate)는 지원 수준의 편차가 큽니다. 기능이 안정화되면 다시 검토할 예정입니다.

출처: Anthropic 프롬프트 캐시 · OpenAI 프롬프트 캐시 · Google Gemini Context 캐시 · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA 논문 · PagedAttention / vLLM (Kwon et al. 2023). 측정값은 2026-05-25에 https://synthorai.io/v1에서 수집했습니다.

← 블로그로 돌아가기