¿Qué caché de prompts para LLM es más barata? Comparativa de 5 proveedores (2026)

23 de mayo de 2026 · Actualizado el 21 de julio de 2026 · prompt-cache · llm-providers · evaluation

Contenido

1. Taxonomía de los tipos de caché para LLM
1.1 Control: explícito, implícito o híbrido
1.2 Persistencia: en memoria o respaldada por disco
1.3 Granularidad: resolución de coincidencia
1.4 Modelo de objetos: marcadores por llamada u objetos de caché con nombre
2. Análisis por proveedor
2.1 Anthropic Claude — Explícita, en memoria, granularidad de 1,024 tokens
2.2 OpenAI GPT-5.x — Automática, en memoria, granularidad de 1,024 tokens
2.3 Google Gemini — Híbrida, en memoria, objetos de caché con nombre
2.4 DeepSeek-v4 — Automática, respaldada por disco, granularidad de 64 tokens
2.5 Alibaba Qwen3 — Híbrida, en memoria, objetos de caché con nombre + modo implícito
3. Comparativa directa
3.1 Estructura de descuentos (documentación de los proveedores, 2026-05)
3.2 TTL, granularidad y persistencia
3.3 Latencia medida con un prefijo de 7K tokens (2026-05-25)
4. Marco de evaluación con 5 dimensiones
4.1 Coste efectivo por millón de tokens, ponderado por la tasa de aciertos
4.2 Predictibilidad de la tasa de aciertos
4.3 Adecuación entre el TTL y la cadencia del tráfico
4.4 Latencia cuando no hay acierto de caché
4.5 Ergonomía de la API y coste de migración
5. Recomendaciones rápidas según el tipo de carga
6. Aspectos que debes prever al migrar
7. Qué cambiará con el tiempo
Preguntas frecuentes

TL;DR — Los cinco principales proveedores de LLM implementan la caché de prompts de formas muy distintas: marcadores explícitos (Claude), funcionamiento totalmente automático (GPT-5.x, DeepSeek-v4), combinación de modos implícito y explícito (Gemini, Qwen) o almacenamiento en disco como parte de la arquitectura (MLA de DeepSeek). Este artículo compara todas sus funciones y propone un marco de evaluación con 5 dimensiones para puntuarlas según tu carga de trabajo: coste, predictibilidad de la tasa de aciertos, latencia, adecuación del TTL y ergonomía de la API. La arquitectura se explica en la Parte 1: principios de la caché; las mediciones y el código Python funcional están en la Parte 3: tutorial.

Serie: Parte 2 de 5 · Anterior: Parte 1 — Principios de la caché · Siguiente: Parte 3 — Tutorial con código funcional · Parte 4 — Mejor LLM según el caso de uso · Parte 5 — Integración con LangChain

1. Taxonomía de los tipos de caché para LLM

Antes de analizar cada proveedor, conviene definir cuatro ejes de diseño:

1.1 Control: explícito, implícito o híbrido

Explícito — el desarrollador marca qué partes del prompt deben almacenarse en caché (cache_control de Anthropic Claude). Ofrece el máximo control, pero exige cambios en el código.
Implícito / automático — el proveedor detecta automáticamente los prefijos coincidentes (OpenAI GPT-5.x, DeepSeek-v4). No requiere cambios en el código, pero tampoco permite forzar un acierto.
Híbrido — admite ambos modos y permite elegir en cada llamada (Gemini, Qwen).

1.2 Persistencia: en memoria o respaldada por disco

La determina la arquitectura de la caché KV del proveedor, no la superficie de la API.

En memoria (HBM) — la caché reside en la memoria de la GPU, dura poco tiempo (minutos) y exige bloques mínimos grandes (1,024 tokens). Es la opción predeterminada de la mayoría de los proveedores.
Respaldada por disco — la caché persiste en SSD/NVMe, con TTL mucho más largos y mayor granularidad. DeepSeek la utiliza a gran escala gracias a la compresión Multi-head Latent Attention (MLA), que reduce la caché KV unas ~4× (DeepSeek-AI, 2024).

1.3 Granularidad: resolución de coincidencia

¿Cuál es el prefijo mínimo que puede obtener un descuento?

64 tokens — DeepSeek (la granularidad más fina del sector)
128 tokens — OpenAI (incremento de coincidencia)
1,024 tokens — bloque mínimo almacenable en caché para Claude, OpenAI, Gemini y Qwen

Una granularidad más fina permite aprovechar coincidencias parciales del prefijo, por lo que tolera mucho mejor las pequeñas variaciones en el prompt.

1.4 Modelo de objetos: marcadores por llamada u objetos de caché con nombre

Marcadores por llamada — cada solicitud incluye el contenido que se almacenará en caché y el proveedor calcula su hash (Claude, OpenAI, DeepSeek, modo implícito de Qwen).
Objetos de caché con nombre — el desarrollador crea una caché mediante una llamada independiente a la API, recibe un cache_id y lo referencia después (modo explícito de Gemini y Qwen). Añade pasos, pero permite controlar directamente el ciclo de vida.

Estos cuatro ejes están relacionados. La propuesta de cada proveedor se define por su posición en cada uno de ellos. A continuación analizamos los proveedores por separado.

2. Análisis por proveedor

2.1 Anthropic Claude — Explícita, en memoria, granularidad de 1,024 tokens

Modelos principales (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

Actualización de GPT-5.6 (2026-06): estas reglas cambiaron con la familia GPT-5.6. Las escrituras en caché ahora se facturan a 1.25x la tarifa de entrada, se necesita un prompt_cache_key para obtener coincidencias fiables y se añadieron puntos de corte explícitos con un TTL de 30 minutos. Las filas de este artículo describen el comportamiento de GPT-5.5/5.4; para 5.6, consulta la guía de costes de GPT-5.6 y nuestros mínimos de caché medidos.

API de caché. Permite marcar hasta cuatro puntos de corte cache_control en cualquier lugar del system prompt o del array de mensajes. Los aciertos cuestan aproximadamente el 10% de la tarifa base de entrada; las escrituras cuestan el 125% (un recargo del 25%). El TTL predeterminado es de 5 minutos con renovación deslizante (cada acierto lo reinicia), y también hay una opción de 1 hora.

Estructura de precios. Anthropic publica las tarifas por millón de tokens de cada modelo en su página de precios; el descuento de caché es uniforme en toda la familia. Con un system prompt de 8,000 tokens y 100K llamadas diarias a claude-sonnet-4-5, el coste por llamada cae aproximadamente entre 8 y 10 veces una vez calentado el prefijo. La inversión se amortiza tras un solo acierto.

Comportamiento del TTL. El valor predeterminado es una ventana deslizante de 5 minutos: cada acierto retrasa la caducidad otros 5 minutos. El TTL de 1 hora duplica el coste de escritura, pero es imprescindible para cargas con periodos de inactividad superiores a 5 minutos.

Granularidad. Mínimo de 1,024 tokens. El hash se calcula sobre la secuencia exacta de tokens; cambiar un solo carácter al principio invalida todo el prefijo.

Ergonomía de la API. Es la mejor. El diseño con varios puntos de corte permite almacenar por separado lo que «nunca cambia», lo que «cambia rara vez» y lo que «cambia en cada tarea». Es la mejor opción para agentes y cargas RAG cuyas secciones del prompt se actualizan con distinta frecuencia.

Problemas habituales.

Si olvidas añadir cache_control, no se almacena nada en caché. A diferencia de GPT o DeepSeek, no existe un modo implícito de respaldo.
El hash depende del orden incluso dentro de los arrays de tools o funciones; ordénalos de forma determinista.
Sin un keep-alive explícito, el valor predeterminado de 5 minutos hace que Claude encaje mal en trabajos batch esporádicos.
Si llamas a Claude a través de un gateway, comprueba que admita la ruta nativa de Anthropic /v1/messages con marcadores cache_control (la ruta compatible con OpenAI /chat/completions normalmente no los propaga; usa el SDK de Anthropic configurado con la URL base del gateway).

Mejor encaje. Agentes con contextos largos, chats multivuelta con system prompts estables y RAG estructurado con caché por capas.

2.2 OpenAI GPT-5.x — Automática, en memoria, granularidad de 1,024 tokens

Modelos principales (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex para código: gpt-5.2-codex, gpt-5.3-codex.

API de caché. No hay que hacer nada: se activa automáticamente en todas las solicitudes de al menos 1,024 tokens. Los aciertos se facturan al 50% de la tarifa de entrada y no hay recargo de escritura. El incremento de coincidencia es de 128 tokens.

Estructura de precios. OpenAI publica las tarifas por millón de tokens en su página de precios. La entrada en caché tiene un descuento del 50%; la salida no cambia.

Mediciones (2026-05-25, system prompt de ~6,900 tokens):

Modelo	Coste total sin acierto	Coste total con acierto	Tasa de caché con acierto	TTFT con streaming y acierto
`gpt-5.4-nano`	$0.00131	$0.00074 (−44%)	5,888 / 6,887 (85%)	1.00 s
`gpt-5.4-mini`	$0.00267	$0.00257*	6,400 / 6,887 (93%)	0.73 s

* La respuesta generada por gpt-5.4-mini en la ejecución con acierto fue mucho más corta que en la ejecución sin acierto; la diferencia de coste mezcla el descuento de caché con la variación en la longitud de la respuesta. La reducción de latencia de 5× (3.63 → 0.73 s) es un indicador más fiable.

Comportamiento del TTL. El valor exacto no está documentado. Los datos observados apuntan a entre 5 y 60 minutos, según la carga y la popularidad del prefijo. Los prefijos compartidos más populares duran más porque la política LRU los favorece.

Ergonomía de la API. Mínima fricción: el código existente sigue funcionando. Registra prompt_tokens_details.cached_tokens para medir la tasa de aciertos.

Problemas habituales.

No se puede forzar un acierto. Si el tráfico genera prefijos únicos, no obtendrás ningún beneficio.
El descuento del 50% es menor que el 90/75% de Claude/DeepSeek (se aproxima al ~25% implícito de Gemini).
Con streaming, los aciertos de caché a veces solo se notifican en el último chunk. Instrumenta con cuidado y envía stream_options={"include_usage": True}.

Mejor encaje. Bases de código que ya usan GPT y donde el coste de adaptar la integración supera el ahorro adicional. Tráfico con ráfagas y mucha repetición natural de prefijos.

2.3 Google Gemini — Híbrida, en memoria, objetos de caché con nombre

Modelos principales (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

API de caché. Ofrece dos modos:

Implícito: automático, como GPT. Los tokens en caché se facturan aproximadamente al 25% de la tarifa de entrada. No hay coste de almacenamiento ni configuración.
Explícito: se crea un objeto cachedContent mediante una llamada independiente a la API y se referencia por nombre en las solicitudes posteriores. Los tokens en caché se facturan aproximadamente al 10% (menos), pero se cobra una tarifa de almacenamiento por hora y por millón de tokens.

Estructura de precios. Los contextos largos son el punto fuerte de Gemini. El precio escala según la categoría de longitud del contexto, con tarifas por token superiores al superar el umbral de 200K.

Mediciones (2026-05-25):

Modelo	Coste sin acierto	Coste con acierto (streaming)	Tasa de caché con acierto
`gemini-2.5-flash`	$0.00198	$0.00024 (−88%)	7,140 / 7,322 (97%)
`gemini-2.5-pro`	$0.00824	$0.00205 (−75%)	6,120 / 7,328 (84%)

Comportamiento del TTL. Implícito: minutos, sin especificar. Explícito: lo define el desarrollador, con 1 hora de forma predeterminada y un máximo de 24 horas.

Ergonomía de la API. La caché explícita requiere un flujo de 2 pasos (crear → referenciar). El ciclo de vida de cachedContent (crear, actualizar el TTL y eliminar) queda bajo tu responsabilidad.

Problemas habituales.

La tarifa de almacenamiento elimina el ahorro en cachés explícitas de poco volumen. Calcula siempre el punto de equilibrio según la frecuencia de llamadas.
La tasa de aciertos de la caché implícita varía; no la des por garantizada al modelar costes.
Los objetos de caché están vinculados a una región. Las aplicaciones multirregión necesitan duplicarlos.
gemini-*-pro es un modelo de razonamiento: con un max_tokens pequeño, el razonamiento oculto consume todo el espacio de respuesta y verás completion_tokens=0. Usa max_tokens ≥256 en cualquier ruta expuesta al usuario.

Mejor encaje. Un documento grande (>20K tokens) consultado más de 10 veces por hora. Preguntas y respuestas sobre vídeo. RAG multimodal sobre PDF empresariales.

2.4 DeepSeek-v4 — Automática, respaldada por disco, granularidad de 64 tokens

Modelos principales (2026-05): deepseek-v4-flash (uso general), deepseek-v4-flash (también cubre cargas de programación en esta generación).

API de caché. Automática, como GPT, pero basada en una compresión MLA que reduce lo suficiente la caché como para persistirla en disco. Los aciertos se facturan aproximadamente al 25% de la tarifa de entrada y no hay recargo de escritura. La coincidencia mínima es de 64 tokens.

Estructura de precios. Las tarifas de la página de precios de DeepSeek están denominadas en yuanes. Un acierto supone aproximadamente una reducción del 75% en el coste de entrada.

Mediciones (2026-05-25):

Modelo	Coste sin acierto	Coste con acierto	Tasa de caché con acierto	TTFT con acierto
`deepseek-v4-flash`	$0.00091	$0.00023 (−74%)	6,784 / 7,101 (96%)	2.93 s

Comportamiento del TTL. Horas, y en ocasiones más para los prefijos con mucho tráfico. Al usar almacenamiento en disco, la caché sobrevive a la presión de memoria de la GPU que provocaría la expulsión de cachés en memoria en otros proveedores.

Granularidad. El mínimo de 64 tokens es el más pequeño del sector. Al hacer pequeños cambios en el prompt, la mayor parte del prefijo sigue coincidiendo, en lugar de quedar completamente invalidado como ocurre con los proveedores que usan bloques de 1,024 tokens.

Ergonomía de la API. API con el formato de OpenAI; basta con cambiar la URL base. Usa el campo estándar prompt_tokens_details.cached_tokens.

Problemas habituales.

Solo funciona con modelos de la familia DeepSeek. Esta caché no puede utilizarse con otras familias de modelos.
La calidad en inglés es excelente, pero queda por detrás de Claude/GPT-5.x en los benchmarks de razonamiento más exigentes.

Mejor encaje. Cargas en chino donde prima el coste. Cargas con prefijos muy frecuentes y donde importa la granularidad (RAG con un orden de recuperación inestable). Trabajos batch sensibles al coste.

2.5 Alibaba Qwen3 — Híbrida, en memoria, objetos de caché con nombre + modo implícito

Modelos principales (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes de visión: qwen3-vl-plus, qwen3-vl-flash.

API de caché. Ofrece dos modos:

Implícito: siempre activo, como GPT. La parte almacenada en caché se factura aproximadamente al 20% de la tarifa de entrada.
Explícito: se crea la caché mediante la API con un TTL personalizado. Los aciertos se cobran aproximadamente al 10% y las escrituras al 125%.

Mediciones (2026-05-25):

Modelo	Coste sin acierto	Coste con acierto	Tasa de caché con acierto	TTFT con acierto	Notas
`qwen3-max`	$0.00553	$0.00549	7,040 / 7,234 (97%)	1.53 s	Se notificó un acierto de caché, pero el campo de coste del gateway no reflejó el descuento en esa fecha (compruébalo en producción)

Comportamiento del TTL. El valor predeterminado es de 5 minutos y puede configurarse por objeto de caché. Ventana deslizante en el modo explícito; TTL fijo y corto en el implícito.

Ergonomía de la API. El modo implícito sigue el formato de GPT y no requiere trabajo adicional. El explícito usa un flujo de 2 pasos con gestión del ciclo de vida de la caché.

Problemas habituales.

Por ahora, solo qwen3-max y qwen3.5-plus admiten caché explícita.
La disponibilidad multirregión (Singapur, EE. UU.) aún se está desplegando. Confirma la región antes de utilizarla con datos de fuera de China.
La documentación tiene más lagunas que la de Anthropic/OpenAI; conviene hacer pruebas empíricas.

Mejor encaje. Cargas empresariales en chino que requieren un control estricto de la caché. Clientes que ya utilizan Alibaba Cloud.

3. Comparativa directa

3.1 Estructura de descuentos (documentación de los proveedores, 2026-05)

Proveedor	Recargo por escritura en caché	Tarifa de entrada en caché	Descuento efectivo
Anthropic Claude	+25%	10% de la base	~90% menos
OpenAI GPT-5.5 / 5.4	ninguno	50% de la base	50% menos
Google Gemini (implícita)	ninguno	~25% de la base	~75% menos
Google Gemini (explícita)	ninguno, pero con tarifa de almacenamiento por hora	~10% de la base	~90% menos si se amortiza
DeepSeek-v4	ninguno	~25% de la base	~75% menos
Alibaba Qwen3 (implícita)	ninguno	~20% de la base	~80% menos
Alibaba Qwen3 (explícita)	+25%	~10% de la base	~90% menos

3.2 TTL, granularidad y persistencia

Proveedor	TTL predeterminado	TTL máximo	Persistencia	Unidad mínima de coincidencia
Claude	5 min deslizante	1 hora	En memoria (HBM)	1,024 tok
GPT-5.5 / 5.4	~5 min	~60 min	En memoria (HBM)	1,024 tok / incrementos de 128 tok
Gemini (implícita)	minutos	sin especificar	En memoria	1,024 tok
Gemini (explícita)	1 hora	24 horas	En memoria	1,024 tok
DeepSeek-v4	horas	horas+	Disco (SSD)	64 tok
Qwen3	5 min	configurable	En memoria	~1,024 tok

3.3 Latencia medida con un prefijo de 7K tokens (2026-05-25)

Proveedor / modelo	Total sin acierto	TTFT con acierto (streaming)	Mejora de latencia
`claude-haiku-4-5` †	~3.0 s	1.31 s	~2×
`claude-sonnet-4-5` †	~2.0 s	1.76 s	~1.2×
`claude-opus-4-5` †	~2.2 s	2.08 s	~1.05×
`gpt-5.4-mini`	~3.6 s	0.73 s	~5×
`gpt-5.4-nano`	~2.2 s	1.00 s	~2×
`gemini-2.5-flash`	~2.5 s	~1.4 s	~1.8×
`gemini-2.5-pro`	~3.0 s	~1.8 s	~1.7×
`deepseek-v4-flash`	~4.0 s	2.93 s	~1.4×
`qwen3-max`	~4.8 s	1.53 s	~3×

† Las filas de Claude se midieron con marcadores cache_control a través del endpoint nativo de Anthropic /v1/messages (consulta la Parte 3 §2). La mayor ventaja de Claude está en el coste (~88–89% menos en la entrada; consulta la tabla completa de costes en la Parte 3 §2). Según los datos publicados por Anthropic, la mejora del TTFT aumenta drásticamente con prompts de más de 100K tokens.

Una sola ejecución secuencial, sin carga concurrente. Los resultados variarán según la región, la hora del día y la carga de otros tenants.

4. Marco de evaluación con 5 dimensiones

Titulares como «Claude ahorra un 90%» llaman la atención, pero rara vez ayudan a elegir. Puntúa cada proveedor en estas cinco dimensiones según tu carga de trabajo y pondera después lo que más te importe.

4.1 Coste efectivo por millón de tokens, ponderado por la tasa de aciertos

No compares los precios base. Compara el coste esperado con tu tasa real de aciertos. Introduce tus datos en la calculadora de costes de LLM o consulta la comparativa de precios de LLM actualizada entre proveedores:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Ejemplo con un 70% de repetición de prefijos (chatbot típico):

Claude: ~90% de descuento × 0.7 de aciertos + 25% de escritura × 0.3 → efectivo ≈ base × 0.45
GPT-5.5: ~50% × 0.7 + 0 → efectivo ≈ base × 0.65
Gemini implícita: ~75% × 0.7 + 0 → efectivo ≈ base × 0.48
DeepSeek-v4: ~75% × 0.7 + 0 → efectivo ≈ base × 0.48

Multiplica el resultado por la tarifa base real de cada proveedor, que no es igual entre ellos, para obtener una cifra comparable en dólares. Puntuación: calcula effective_cost para tu carga de trabajo; cuanto menor, mejor.

4.2 Predictibilidad de la tasa de aciertos

Cachés explícitas (Claude, Qwen explícita, Gemini explícita) — alta predictibilidad. Si lo marcas, habrá acierto mientras siga dentro del TTL.
Cachés automáticas (GPT-5.x, DeepSeek-v4, Gemini implícita, Qwen implícita) — dependen tanto de la similitud del prefijo como de la carga del proveedor y las expulsiones LRU.

Si tus SLA dependen del coste, elige una caché explícita. Para una optimización oportunista, la automática es suficiente.

4.3 Adecuación entre el TTL y la cadencia del tráfico

Patrón de tráfico	Qué necesitas
Continuo (segundos entre llamadas)	Sirve el valor predeterminado de cualquier proveedor
Por sesión (minutos)	TTL de 5–60 min (Claude, GPT-5.x, Qwen)
Por ráfagas (horas entre ráfagas)	TTL de 1 hora o más (Claude 1h, Gemini explícita, DeepSeek-v4)
Esporádico (consultas diarias)	TTL de 24 horas (Gemini explícita) o asumir escrituras en frío

4.4 Latencia cuando no hay acierto de caché

Un proveedor rápido con aciertos sigue siendo problemático si es lento cuando falla la caché y tu tasa de aciertos no es alta. Compara ambos valores de §3.3 y pondéralos según la tasa de aciertos esperada.

4.5 Ergonomía de la API y coste de migración

Migración mínima: GPT-5.x ↔ DeepSeek-v4 (ambos usan el formato de OpenAI y caché automática).
Media: GPT-5.x → Gemini implícita (SDK distinto, pero sin código de caché que reescribir).
Alta: GPT-5.x → Claude (hay que añadir cache_control y reorganizar las capas del prompt).
Máxima: pasar de un solo proveedor a varios sin gateway (varias API de caché).

5. Recomendaciones rápidas según el tipo de carga

Carga de trabajo	Elección	Motivo
Chat en inglés, usuarios globales	`claude-haiku-4-5` o `gpt-5.4-nano`	Gran descuento de caché + modelo pequeño y rápido
Chat en chino, China continental	`deepseek-v4-flash` o `qwen3.5-flash`	Caché de varias horas + bajo coste en chino
RAG en inglés (alta calidad)	`claude-sonnet-4-5` + varios puntos de corte	La estructura por capas del prompt aprovecha bien la caché
RAG en chino (sensible al coste)	`deepseek-v4-flash`	La granularidad de 64 tokens tolera cambios en el orden de recuperación
Preguntas sobre documentos largos (uso esporádico)	`gemini-2.5-pro` explícita	TTL de 24 horas, diseñada para este caso
Base de código GPT existente, sin reescritura	`gpt-5.4-mini` (sin cambios)	~50% de ahorro sin trabajo adicional
Agentes complejos (más de 15 pasos)	`claude-sonnet-4-5` + `cache_control` con 4 puntos de corte	Más del 85% de aciertos en tráfico de agentes
Portabilidad entre proveedores	Gateway, cualquier modelo	Un SDK y un header de autenticación

6. Aspectos que debes prever al migrar

Si la puntuación indica que conviene cambiar, planifica estos tres puntos:

Movimiento de datos. Los prefijos almacenados en caché no se transfieren entre proveedores: cualquier cambio empieza en frío. Reserva presupuesto para varias horas con costes superiores a los habituales durante el calentamiento.

Rediseño de prompts. El modelo de varios puntos de corte de Anthropic fomenta una estructura de prompts por capas que también funciona mejor con otros proveedores. Hacer esta refactorización una vez beneficia igualmente a las rutas que no usan Claude.

Hedging mediante un gateway. Si aún no lo tienes claro, enruta las solicitudes mediante un Token Gateway. Mantendrás la capacidad de cambiar de proveedor sin comprometerte con uno solo, a cambio de un salto adicional y, según el gateway, la posible pérdida de controles de caché específicos del proveedor. Consulta la Parte 3 §9 para ver qué hace realmente el gateway de Synthorai y qué afirmaciones conviene tomar con cautela.

7. Qué cambiará con el tiempo

Las cifras de este artículo cambiarán. La caché se ha convertido en un frente de competencia por precio y los proveedores actualizan sus productos cada pocos meses. Hay dos puntos que conviene vigilar:

Ampliaciones del TTL. La opción de 1 hora de Anthropic ya está disponible de forma general; Gemini podría ampliarlo a varios días. La preocupación por TTL demasiado cortos debería reducirse.
Granularidad. Es probable que OpenAI y Anthropic reduzcan en algún momento su mínimo de 1,024 tokens; el umbral de 64 tokens de DeepSeek ha elevado el listón.

Cuando los descuentos converjan, los factores diferenciales serán la ergonomía de la API y la latencia, no el porcentaje de ahorro anunciado.

Próximamente: la Parte 3 — Tutorial de caché de prompts: Python funcional convierte la arquitectura anterior en código ejecutable y reproduce la tabla de latencia de §3.3 como un benchmark que puedes ejecutar por tu cuenta.

Preguntas frecuentes

¿Qué proveedor de LLM tiene la caché de prompts más barata en términos generales? Con la misma tasa de aciertos (~75%), nuestras mediciones de 2026-05 sitúan a deepseek-v4-flash como la opción con menor coste efectivo por millón para cargas en chino y a la caché implícita de gemini-2.5-flash para inglés. claude-sonnet-4-5 ofrece el mayor descuento por llamada (~90%), pero parte de un precio base superior; resulta más rentable cuando la tasa de aciertos supera el 85%. Introduce tu propia tasa de aciertos en la fórmula de §4.1.

¿Por qué Gemini cuesta más con cargas de poco volumen? La tarifa de almacenamiento por hora de las cachés explícitas consume el descuento si no consultas la caché con frecuencia. Para cargas de poco volumen, usa la caché implícita de Gemini (sin tarifa de almacenamiento, ~25% de descuento).

¿Puedo usar el cache_control de Claude con OpenAI? No directamente: son implementaciones de caché distintas. En el endpoint compatible con OpenAI /chat/completions, el campo normalmente no tiene ningún efecto en modelos que no sean de Anthropic; esos modelos ya usan caché automática. Para Claude, utiliza el endpoint nativo de Anthropic /v1/messages con los marcadores.

¿La arquitectura MLA de DeepSeek es propietaria? El paper (DeepSeek-AI 2024) es público. Otros proveedores podrían adoptar una compresión KV similar a MLA, pero tendrían que volver a entrenar el modelo base; no es una opción que pueda activarse en runtime. A fecha de 2026-05, DeepSeek sigue siendo el único proveedor importante que la utiliza en producción.

¿Qué ocurre con los modelos open source autoalojados? vLLM, SGLang y otros motores de inferencia admiten caché de prefijos de forma nativa (basada en el paper de PagedAttention). Si operas H100/H200 por tu cuenta, puedes implementar caché respaldada por disco con LMCache o una solución similar. El análisis de precios de este artículo solo se aplica a servicios gestionados; la economía del autoalojamiento es completamente distinta. Si necesitas routing entre varios proveedores sin operar el router, una alternativa gestionada a LiteLLM mantiene una sola API para esos mismos proveedores sin perder la caché. En caché de prompts para LLM con pesos abiertos se detalla qué modelos usan caché, dónde lo hacen y qué hosts la ofrecen como producto.

¿Por qué esta comparativa no incluye Mistral, Cohere ni proveedores de API para Llama? A fecha de 2026-05, sus propuestas de caché están menos maduras. La de Mistral se encuentra en acceso anticipado; Cohere no expone caché explícita; y las implementaciones de los proveedores de API para Llama (Groq, Together, Replicate) varían mucho. Habrá que revisarlas cuando sus funciones se estabilicen.

Fuentes: Caché de prompts de Anthropic · Caché de prompts de OpenAI · Caché de contexto de Google Gemini · Caché KV de DeepSeek · Caché de contexto de Alibaba Bailian · Paper de DeepSeek-V2 / MLA · PagedAttention / vLLM (Kwon et al. 2023). Mediciones realizadas mediante https://synthorai.io/v1 el 2026-05-25.

← Volver al blog