LLM 프롬프트 캐싱: 2026 완벽 가이드
목차
대규모 언어 모델을 대상으로 챗봇, RAG 앱, AI 에이전트를 출시한다면, 프롬프트 캐싱은 품질을 전혀 희생하지 않고 입력 비용의 5090%와 첫 토큰까지의 시간(TTFT)을 310배 되찾아 주는 유일한 최적화입니다. 이는 덧붙여진 잔재주가 아니라 Transformer 어텐션이 정의되는 방식 자체에서 직접 도출됩니다. 그것을 이해하고 나면 스택의 나머지 부분(TTL, 프로바이더 간 차이, 프롬프트 구조)이 깔끔하게 맞아떨어집니다.
이 페이지는 이론에서 프로덕션 의사결정 매트릭스까지 안내하는 4부작 시리즈의 색인입니다. 이미 알고 있는 내용에 따라 진입할 지점을 고르세요.
어디서부터 시작할까
| 이런 걸 원한다면… | 여기서 시작 |
|---|---|
| 캐싱이 왜 존재하는지, KV 캐시가 실제로 무엇인지 이해하기 | 1부 — KV 캐시와 TTL의 작동 원리 |
| 프로바이더를 고르고 각각의 차이점을 알기 | 2부 — Claude, GPT, Gemini, DeepSeek 비교 |
| 동작하는 Python을 복사·붙여넣어 자신의 수치를 측정하기 | 3부 — 동작하는 Python 튜토리얼 |
| 챗봇 / RAG / 에이전트 워크로드에 알맞은 모델을 맞추기 | 4부 — 챗, RAG, 에이전트를 위한 최적 모델 |
각 부는 독립적으로 읽을 수 있지만, 순서대로 읽으면 중복 없이 전체 그림이 쌓이도록 작성되었습니다.
1부 — LLM 프롬프트 캐싱의 작동 원리
LLM 프롬프트 캐싱 #1: KV 캐시와 TTL의 작동 원리 →
아키텍처 글입니다. 셀프 어텐션을 하나의 수식으로 풀어내고, 안정적인 프리픽스의 K 벡터와 V 벡터가 왜 수학적으로 재사용 가능한지 설명하며, 메모리와 연산 사이의 트레이드오프가 모든 개발자가 설계의 전제로 삼아야 하는 TTL 동작을 어떻게 만들어내는지 보여줍니다.
핵심 요점:
- 프롬프트 캐싱은 위에 얹은 최적화가 아니라 인과 마스크 어텐션의 직접적인 결과입니다. 위치
i의 K/V는 토큰1…i의 결정론적 함수이므로, 동일한 프리픽스는 비트 단위로 동일한 K/V를 만듭니다. - 캐싱이 절약하는 것은 Prefill(연산 바운드, O(N²))입니다. decode(메모리 대역폭 바운드, 토큰당 O(N))는 어떤 추론 엔진이든 이미 최적화해 둔 부분입니다.
- TTL이 존재하는 이유는 KV 캐시가 막대하기 때문입니다(70B 모델에서 32K 컨텍스트의 경우 약 10 GB). 5분은 GPU 메모리 압박의 한계선이며, 수 시간에서 수 일은 디스크 기반 캐시(DeepSeek의 MLA 아키텍처)에서만 가능합니다.
- 캐싱은 비용(캐시 히트 시 입력이 50
90% 저렴)과 지연 시간(510K 토큰 규모 프롬프트에서 TTFT가 3~10배 하락, 100K 이상에서는 훨씬 더) 양쪽에서 승리합니다.
2부 — 프로바이더 전반의 LLM 프롬프트 캐싱 비교
LLM 프롬프트 캐싱 #2: Claude, GPT, Gemini, DeepSeek 비교 →
구매자 가이드입니다. 다섯 프로바이더는 프롬프트 캐싱을 매우 다른 다섯 가지 형태로 제공합니다——명시적 마커(Claude), 완전 자동(GPT-5, DeepSeek-v4), 암시+명시 하이브리드(Gemini, Qwen), 또는 아키텍처적 디스크 기반(DeepSeek의 MLA). 이 글은 기능별 비교에 더해, 특정 워크로드에 맞춰 각 사를 평가하는 5차원 평가 프레임워크를 제공합니다.
핵심 요점:
- 기본 가격을 비교하지 마세요——자신의 히트율로 가중한 실효 비용을 비교하세요(공식은 §4.1).
- Claude는 단일 호출에서 가장 깊은 할인(약 90%)을 제공하지만 명시적
cache_control마커가 필요합니다. - DeepSeek-v4는 규모 면에서 디스크 기반 캐시를 제공하는 유일한 프로바이더입니다. 단위가 1,024 토큰이 아니라 64 토큰이므로 부분 프리픽스 일치에도 할인이 적용됩니다.
- Gemini의 명시적 캐시는 시간 단위 스토리지 요금이 발생합니다——손익분기점은 호출 빈도에 달려 있습니다.
- 히트율이라는 변수를 통제하고 나면 실제로 프로바이더를 가르는 것은 이 다섯 차원입니다: API 사용성, 히트율 예측 가능성, TTL 적합도, 미스 시 지연 시간, 그리고 마이그레이션 비용.
3부 — 동작하는 Python 튜토리얼
LLM 프롬프트 캐싱 #3: 동작하는 Python 튜토리얼 →
실습 글입니다. 하나의 OpenAI SDK + 하나의 Anthropic SDK를 단일 게이트웨이에 연결하고, 2026-05-25에 전체 Claude 패밀리(haiku-4-5부터 opus-4-7까지), GPT-5.x, Gemini 2.5, DeepSeek-v4, Qwen3에 걸쳐 측정한 수치를 함께 담았습니다.
핵심 요점:
cache_control마커를 사용한 Claude: haiku/sonnet/opus 4-x 전반에서 일관되게 88~89% 비용 절감을 실측했습니다. Anthropic SDK를base_url="https://synthorai.io/"로 사용하세요.- GPT-5.4-mini 자동 캐시: TTFT 5배 개선(7K 토큰 프롬프트에서 3.6초 → 0.73초), 시스템 토큰에서 캐시 히트율 93%.
- Gemini 2.5-flash 암시적 캐시: 스트리밍 usage를 포착한 경우 캐시 히트 시 88% 비용 절감.
- DeepSeek-v4-flash: 74% 저렴, 디스크 기반(캐시가 시간 단위의 유휴를 견뎌냄).
- TTL 인지 패턴: cron용 keep-alive 하트비트, 프리픽스 안정성 규칙, 호출마다 무엇을 로깅할지.
4부 — 사용 사례별 최적 모델
LLM 프롬프트 캐싱 #4: 챗, RAG, 에이전트를 위한 최적 모델 →
결정 글입니다. 워크로드가 다르면 비용/지연 레버를 당기는 방식도 다릅니다——챗은 본질적으로 캐시 친화적이고, RAG는 프리픽스 안정성 문제와 싸우며, 에이전트는 누적 프리픽스의 규율에 의존합니다. 이 글은 워크로드 형태별로 모델 추천과 비용 추정치를 제공합니다.
핵심 요점:
- 챗봇: 자동 캐시를 갖춘 어떤 모델이든 작동합니다. 세션은 자연스럽게 히트합니다. 비용/품질로 고르세요.
gpt-5.4-nano가 가장 저렴,gpt-5.4-mini가 캐시 후 TTFT 최고속,claude-haiku-4-5가 약간 높은 프리미엄으로 지시 이행 최고. - RAG: 검색 문서의 재정렬이 프롬프트 중간의 캐시 히트를 죽입니다. 수정책은 세 가지——참조를 끝으로 밀기, 결정론적 청크 순서, 또는 Claude의 다중
cache_control중단점. - 에이전트: 도구 호출과 결과는 추가 전용이어야 하며 단계 간 비트 단위로 동일해야 합니다. 4개의
cache_control마커를 단claude-sonnet-4-5가 가장 강력한 누적 프리픽스 할인을 제공합니다.gpt-5.4-mini는 코드 변경 없이 50% 절감을 제공합니다. - TTL 매칭: 챗은 5분, 사람이 개입하는 단계가 있는 에이전트는 1시간, 산발적 배치는 디스크 기반.
이 시리즈를 읽는 법
- 이 주제를 처음 접하는 엔지니어: 순서대로 읽으세요. 1부의 아키텍처가 2~4부를 단숨에 이해하게 해 줍니다.
- 벤더 선정을 하는 PM이나 아키텍트: 2부 + 4부로 건너뛰세요. 동료가 “그런데 TTL은 왜 존재하지?”라고 물으면 1부를 참조하세요.
- 오늘 당장 특정 워크로드를 출시해야 하는 엔지니어: 먼저 4부(매트릭스에서 자신의 행 찾기), 그다음 정확한 코드를 위해 3부.
- 기존 앱을 최적화하는 누구든: 3부 §6의 프로바이더 간 벤치마크——자신의 프롬프트로 재현해 보세요. 이는 하루짜리 작업이지, 수 주에 걸친 마이그레이션이 아닙니다.
이 시리즈의 수치에 대하여
모든 실측값은 2026-05-25에 Synthorai 게이트웨이를 대상으로 수집했습니다(OpenAI 호환은 https://synthorai.io/v1, Anthropic 네이티브는 https://synthorai.io/). 싱글 테넌트, 단일 순차 실행, 동시 부하 없음. 당신의 수치는 리전, 시간대, 경쟁 테넌트 부하에 따라 변합니다——출발점으로 삼고, 인용하기 전에 자신의 트래픽으로 재현하세요.
가격표와 TTL 동작은 2026-05 기준 벤더 공개 문서를 반영합니다. 벤더는 몇 달마다 이를 갱신합니다. 아키텍처적 추론(1부)은 안정적이지만, 비교 수치(2부와 3부)는 변동합니다.