Caché de prompts en LLM #2: comparar Claude, GPT, Gemini, DeepSeek

Contenido
  1. 1. Una taxonomía de tipos de caché en LLM
  2. 1.1 Control: explícito vs implícito vs híbrido
  3. 1.2 Persistencia: en memoria vs respaldado en disco
  4. 1.3 Granularidad: resolución de coincidencia
  5. 1.4 Modelo de objeto: marcadores por llamada vs objetos de caché con nombre
  6. 2. Análisis en profundidad por proveedor
  7. 2.1 Anthropic Claude — Explícito, en memoria, granularidad de 1.024 tokens
  8. 2.2 OpenAI GPT-5.x — Automático, en memoria, granularidad de 1.024 tokens
  9. 2.3 Google Gemini — Híbrido, en memoria, objetos de caché con nombre
  10. 2.4 DeepSeek-v4 — Automático, respaldado en disco, granularidad de 64 tokens
  11. 2.5 Alibaba Qwen3 — Híbrido, en memoria, objetos de caché con nombre + implícito
  12. 3. Comparación lado a lado
  13. 3.1 Estructura de descuentos (docs de proveedores, 2026-05)
  14. 3.2 TTL, granularidad y persistencia
  15. 3.3 Latencia medida en un prefijo de 7K tokens (2026-05-25)
  16. 4. El marco de evaluación de 5 dimensiones
  17. 4.1 Coste efectivo por millón de tokens (ponderado por la tasa de aciertos)
  18. 4.2 Predictibilidad de la tasa de aciertos
  19. 4.3 Idoneidad TTL ↔ cadencia de tráfico
  20. 4.4 Latencia en caso de fallo de caché
  21. 4.5 Ergonomía de la API y coste de migración
  22. 5. Veredictos rápidos por forma de carga de trabajo
  23. 6. Consideraciones de migración
  24. 7. Lo que cambia con el tiempo
  25. Preguntas frecuentes

TL;DR — Cinco grandes proveedores de LLM exponen el caché de prompts de cinco formas muy distintas: marcadores explícitos (Claude), totalmente automático (GPT-5, DeepSeek-v4), híbrido implícito+explícito (Gemini, Qwen) o respaldo arquitectónico en disco (el MLA de DeepSeek). Este artículo te ofrece una comparación función por función y un marco de evaluación de 5 dimensiones para puntuarlos según tu carga de trabajo: coste, predictibilidad de la tasa de aciertos, latencia, idoneidad del TTL y ergonomía de la API. El trasfondo arquitectónico está en la parte 1: Principios del caché; las cifras medidas y Python funcional están en la parte 3: Tutorial.

Serie: Parte 2 de 4 · Anteriormente: Parte 1 — Principios del caché · A continuación: Parte 3 — Tutorial con código funcional · Parte 4 — Mejor LLM por caso de uso


1. Una taxonomía de tipos de caché en LLM

Antes de ir proveedor por proveedor, conviene fijar cuatro ejes de diseño:

1.1 Control: explícito vs implícito vs híbrido

  • Explícito — el desarrollador marca qué partes del prompt cachear (Anthropic Claude cache_control). Control máximo; requiere cambios de código.
  • Implícito / automático — el proveedor detecta automáticamente los prefijos coincidentes (OpenAI GPT-5, DeepSeek-v4). Cero cambios de código; ninguna forma de forzar un acierto.
  • Híbrido — ambos modos disponibles; se elige por llamada (Gemini, Qwen).

1.2 Persistencia: en memoria vs respaldado en disco

Determinada por la arquitectura del caché KV del proveedor, no por la superficie de la API.

  • En memoria (HBM) — los cachés viven en la memoria de la GPU, de vida corta (minutos), con bloques mínimos grandes (1.024 tokens). Predeterminado en la mayoría de los proveedores.
  • Respaldado en disco — los cachés persisten en SSD/NVMe con TTL mucho más largos y granularidad más fina. DeepSeek ofrece esto a escala, habilitado por su compresión Multi-head Latent Attention (MLA), que reduce el caché KV en aproximadamente 4× (DeepSeek-AI, 2024).

1.3 Granularidad: resolución de coincidencia

¿Qué tan pequeño puede ser un prefijo para obtener un descuento?

  • 64 tokens — DeepSeek (la más fina del sector)
  • 128 tokens — OpenAI (incremento de coincidencia)
  • 1.024 tokens — bloque cacheable mínimo para Claude, OpenAI, Gemini, Qwen

Una granularidad más fina significa que el solapamiento parcial de prefijos también cuenta, mucho más tolerante a pequeñas variaciones del prompt.

1.4 Modelo de objeto: marcadores por llamada vs objetos de caché con nombre

  • Marcadores por llamada — cada solicitud incluye en línea el contenido a cachear, que el proveedor convierte en hash (Claude, OpenAI, DeepSeek, Qwen implícito).
  • Objetos de caché con nombre — el desarrollador crea un caché mediante una llamada a la API independiente, obtiene un cache_id y lo referencia más tarde (Gemini explícito, Qwen explícito). Cambia ceremonia adicional por control explícito del ciclo de vida.

Estos cuatro ejes interactúan. La oferta de un proveedor se describe por su posición en cada uno. La siguiente sección recorre cada proveedor de forma individual.


2. Análisis en profundidad por proveedor

2.1 Anthropic Claude — Explícito, en memoria, granularidad de 1.024 tokens

Modelos principales (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

API de caché. Marca hasta cuatro puntos de ruptura cache_control en cualquier parte de tu sistema o array de mensajes. Los aciertos de caché cuestan ~10 % de la tarifa de entrada base; las escrituras de caché cuestan 125 % (una prima del 25 %). El TTL predeterminado es de 5 minutos deslizante (cada acierto lo reinicia), con una opción de 1 hora.

Estructura de precios. Anthropic publica tarifas por millón de tokens por modelo en su página de precios; el descuento de caché es consistente en toda la familia. Para un prompt de sistema de 8.000 tokens a 100.000 llamadas/día en claude-sonnet-4-5, el coste por llamada cae aproximadamente entre 8 y 10× una vez que el prefijo está caliente: punto de equilibrio tras un solo acierto.

Comportamiento del TTL. Deslizante de 5 minutos por defecto: cada acierto empuja el vencimiento otros 5 minutos hacia adelante. El TTL de 1 hora duplica el coste de escritura, pero es esencial para cualquier carga de trabajo con huecos de inactividad > 5 min.

Granularidad. Mínimo de 1.024 tokens. El hash es sobre la secuencia exacta de tokens; un cambio de un solo carácter al inicio invalida todo el prefijo.

Ergonomía de la API. La más alta. El diseño multipunto de ruptura permite cachear «nunca cambia» + «rara vez cambia» + «cambia por tarea» de forma independiente: el mejor de su clase para cargas de trabajo de agentes y RAG donde las secciones del prompt cambian a cadencias distintas.

Trampas.

  • Olvidar añadir cache_control significa ningún caché en absoluto: a diferencia de GPT o DeepSeek, no hay un respaldo implícito.
  • El hashing del caché es sensible al orden, incluso dentro de los arrays de herramientas/funciones: ordénalos de forma determinista.
  • El valor predeterminado de 5 min hace de Claude una mala opción para trabajos batch esporádicos sin un keep-alive explícito.
  • Si llamas a Claude a través de una pasarela, verifica que la pasarela admita la ruta nativa /v1/messages de Anthropic con marcadores cache_control (la ruta compatible con OpenAI /chat/completions generalmente no propaga los marcadores: usa el SDK de Anthropic apuntando a la URL base de la pasarela).

Mejor ajuste. Agentes de contexto largo, chat multiturno con prompts de sistema estables, RAG estructurado con caché en capas.


2.2 OpenAI GPT-5.x — Automático, en memoria, granularidad de 1.024 tokens

Modelos principales (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex para código: gpt-5.2-codex, gpt-5.3-codex.

API de caché. Nada que hacer: automático en cada solicitud ≥1.024 tokens. Los aciertos de caché se facturan al 50 % de la tarifa de entrada; sin prima de escritura. Incremento de coincidencia: 128 tokens.

Estructura de precios. OpenAI publica tarifas por millón de tokens en su página de precios. La entrada cacheada tiene un 50 % de descuento; la salida no cambia.

Medido (2026-05-25, prompt de sistema de ~6.900 tokens):

ModeloCoste total missCoste total hitTasa de aciertos de cachéTTFT de stream en hit
gpt-5.4-nano$0.00131$0.00074 (−44%)5,888 / 6,887 (85%)1.00 s
gpt-5.4-mini$0.00267$0.00257*6,400 / 6,887 (93%)0.73 s

* La completion de la pasada de acierto de gpt-5.4-mini fue mucho más corta que la de la pasada de fallo; la diferencia de coste mezcla aquí el descuento de caché con la variación de longitud de la completion. La caída de latencia de 5× (3,63 → 0,73 s) es la señal más limpia.

Comportamiento del TTL. Valor exacto no documentado; los informes de campo sugieren de 5 a 60 minutos según la carga y la popularidad del prefijo. Los prefijos compartidos populares viven más tiempo (el LRU los favorece).

Ergonomía de la API. Trivial: el código existente sigue funcionando. Registra prompt_tokens_details.cached_tokens para medir la tasa de aciertos.

Trampas.

  • Ninguna forma de forzar un acierto. Si tu tráfico produce prefijos únicos, no obtienes nada.
  • El descuento del 50 % es más superficial que el 90/75 % de Claude/DeepSeek (coincide con el implícito de Gemini, ~25 %).
  • El streaming a veces informa los aciertos de caché solo en el último chunk: instrumenta con cuidado y pasa stream_options={"include_usage": True}.

Mejor ajuste. Bases de código existentes que usan GPT donde el coste de la adaptación supera al ahorro marginal. Tráfico en ráfagas donde la repetición de prefijos es naturalmente alta.


2.3 Google Gemini — Híbrido, en memoria, objetos de caché con nombre

Modelos principales (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

API de caché. Dos modos:

  • Implícito: automático, como GPT. Los tokens cacheados se facturan al ~25 % de la tarifa de entrada. Sin tarifa de almacenamiento, sin configuración.
  • Explícito: crea un objeto cachedContent mediante una llamada a la API independiente. Referéncialo por nombre en las solicitudes posteriores. Los tokens cacheados se facturan al ~10 % (más bajo), pero pagas una tarifa de almacenamiento por hora por millón de tokens.

Estructura de precios. El contexto largo es la fortaleza de Gemini; el precio escala con la categoría de longitud de contexto (umbrales por debajo de 200K vs por encima de 200K con tarifas por token más altas).

Medido (2026-05-25):

ModeloCoste missCoste hit (stream)Tasa de aciertos de caché
gemini-2.5-flash$0.00198$0.00024 (−88%)7,140 / 7,322 (97%)
gemini-2.5-pro$0.00824$0.00205 (−75%)6,120 / 7,328 (84%)

Comportamiento del TTL. Implícito: minutos, no revelado. Explícito: establecido por el desarrollador, predeterminado 1 hora, hasta 24 horas.

Ergonomía de la API. El caché explícito requiere un flujo de 2 pasos (crear → referenciar). El ciclo de vida de cachedContent (crear, actualizar TTL, eliminar) es tu responsabilidad.

Trampas.

  • La tarifa de almacenamiento es letal para los cachés explícitos de bajo volumen. Calcula siempre el punto de equilibrio para tu frecuencia de llamadas.
  • La tasa de aciertos del caché implícito es variable; no confíes en ella para el modelado de costes.
  • Los objetos de caché están ligados a una región: las apps multirregión necesitan cachés duplicados.
  • gemini-*-pro es un modelo de razonamiento: con un max_tokens pequeño, la completion la consume el pensamiento oculto y verás completion_tokens=0. Sube max_tokens a ≥256 en cualquier ruta orientada al usuario.

Mejor ajuste. Un documento grande (>20K tokens) consultado más de 10 veces/hora. Preguntas y respuestas sobre vídeo. RAG multimodal sobre PDF empresariales.


2.4 DeepSeek-v4 — Automático, respaldado en disco, granularidad de 64 tokens

Modelos principales (2026-05): deepseek-v4-flash (general), deepseek-v4-flash (también cubre cargas de trabajo de coder en esta generación).

API de caché. Automático, como GPT, pero impulsado por la compresión MLA que hace el caché lo bastante compacto para persistir en disco. Los aciertos de caché se facturan al ~25 % de la tarifa de entrada; sin prima de escritura. Coincidencia mínima: 64 tokens.

Estructura de precios. Tarifas denominadas en yuanes en la página de precios de DeepSeek. La tasa de aciertos se traduce aproximadamente en una reducción del 75 % del coste de entrada.

Medido (2026-05-25):

ModeloCoste missCoste hitTasa de aciertos de cachéTTFT en hit
deepseek-v4-flash$0.00091$0.00023 (−74%)6,784 / 7,101 (96%)2.93 s

Comportamiento del TTL. Horas, a veces más para prefijos de alto tráfico. El almacenamiento respaldado en disco significa que los cachés sobreviven a la presión de memoria de la GPU que desalojaría los cachés en memoria en otros proveedores.

Granularidad. El mínimo de 64 tokens es el más pequeño del sector. Las pequeñas ediciones del prompt dejan la mayor parte del prefijo coincidente, en lugar de invalidarlo por completo como los proveedores de 1.024 tokens.

Ergonomía de la API. API con forma de OpenAI; cambia la URL base. Campo estándar prompt_tokens_details.cached_tokens.

Trampas.

  • Solo modelos de la familia DeepSeek. Ninguna forma de usar este caché con otras familias de modelos.
  • La calidad en inglés es excelente, pero queda por detrás de Claude/GPT-5 en los benchmarks de razonamiento más difíciles.

Mejor ajuste. Cargas de trabajo en chino (coste). Cargas de trabajo de prefijos de alta frecuencia donde la granularidad importa (RAG con orden de recuperación inestable). Trabajos batch sensibles al coste.


2.5 Alibaba Qwen3 — Híbrido, en memoria, objetos de caché con nombre + implícito

Modelos principales (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes de visión: qwen3-vl-plus, qwen3-vl-flash.

API de caché. Dos modos:

  • Implícito: siempre activo, como GPT. La porción cacheada se factura al ~20 % de la tarifa de entrada.
  • Explícito: crea un caché mediante la API con un TTL personalizado. Aciertos al ~10 %, escrituras al 125 %.

Medido (2026-05-25):

ModeloCoste missCoste hitTasa de aciertos de cachéTTFT en hitNotas
qwen3-max$0.00553$0.005497,040 / 7,234 (97%)1.53 sAcierto de caché reportado, el campo de coste de la pasarela no reflejó el descuento en esa fecha (verificar en producción)

Comportamiento del TTL. Predeterminado 5 minutos, configurable por objeto de caché. Ventana deslizante para el explícito; TTL fijo corto para el implícito.

Ergonomía de la API. El implícito tiene forma de GPT (cero trabajo). El explícito es un flujo de 2 pasos con ciclo de vida de caché.

Trampas.

  • De momento, solo qwen3-max y qwen3.5-plus admiten caché explícito.
  • La disponibilidad multirregión (Singapur, EE. UU.) se está desplegando: confirma la región antes de confiar en ella para datos fuera de China.
  • Lagunas de documentación respecto a Anthropic/OpenAI: se recomiendan pruebas empíricas.

Mejor ajuste. Cargas de trabajo empresariales chinas que necesitan un control estricto del caché. Clientes que ya están en Alibaba Cloud.



3. Comparación lado a lado

3.1 Estructura de descuentos (docs de proveedores, 2026-05)

ProveedorPrima de escritura de cachéTarifa de entrada cacheadaDescuento efectivo
Anthropic Claude+25%10% de la base~90% de descuento
OpenAI GPT-5ninguna50% de la base50% de descuento
Google Gemini (implícito)ninguna~25% de la base~75% de descuento
Google Gemini (explícito)ninguna, pero tarifa de almacenamiento por hora~10% de la base~90% de descuento si se amortiza
DeepSeek-v4ninguna~25% de la base~75% de descuento
Alibaba Qwen3 (implícito)ninguna~20% de la base~80% de descuento
Alibaba Qwen3 (explícito)+25%~10% de la base~90% de descuento

3.2 TTL, granularidad y persistencia

ProveedorTTL predeterminadoTTL máximoPersistenciaUnidad mínima de coincidencia
Claude5 min deslizante1 horaEn memoria (HBM)1.024 tok
GPT-5~5 min~60 minEn memoria (HBM)1.024 tok / incremento de 128 tok
Gemini (implícito)minutosno reveladoEn memoria1.024 tok
Gemini (explícito)1 hora24 horasEn memoria1.024 tok
DeepSeek-v4horashoras+Disco (SSD)64 tok
Qwen35 minconfigurableEn memoria~1.024 tok

3.3 Latencia medida en un prefijo de 7K tokens (2026-05-25)

Proveedor / modeloTotal missTTFT en hit (stream)Ganancia de latencia
claude-haiku-4-5~3.0 s1.31 s~2×
claude-sonnet-4-5~2.0 s1.76 s~1.2×
claude-opus-4-5~2.2 s2.08 s~1.05×
gpt-5.4-mini~3.6 s0.73 s~5×
gpt-5.4-nano~2.2 s1.00 s~2×
gemini-2.5-flash~2.5 s~1.4 s~1.8×
gemini-2.5-pro~3.0 s~1.8 s~1.7×
deepseek-v4-flash~4.0 s2.93 s~1.4×
qwen3-max~4.8 s1.53 s~3×

† Las filas de Claude se miden con marcadores cache_control a través del endpoint nativo de Anthropic /v1/messages (ver Parte 3 §2). La mayor ganancia de Claude está en el coste (~88–89 % de descuento en la entrada; ver Parte 3 §2 para la tabla completa de costes); la mejora del TTFT escala de forma dramática para prompts de 100K+ tokens según las cifras publicadas por Anthropic.

Una sola ejecución secuencial, sin carga concurrente. Tus cifras variarán con la región, la hora del día y la carga competidora de otros inquilinos.


4. El marco de evaluación de 5 dimensiones

Titulares como «Claude ahorra un 90 %» son interesantes, pero rara vez te dicen qué elegir. Puntúa cada proveedor en estas cinco dimensiones para tu carga de trabajo y luego pondéralas según lo que te importe.

4.1 Coste efectivo por millón de tokens (ponderado por la tasa de aciertos)

No compares los precios base: compara el coste esperado a tu tasa de aciertos real:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Ejemplo desarrollado para un 70 % de repetición de prefijo (chatbot típico):

  • Claude: ~90 % de descuento × 0,7 aciertos + 25 % de escritura × 0,3 → efectivo ≈ base × 0,45
  • GPT-5: ~50 % × 0,7 + 0 → efectivo ≈ base × 0,65
  • Gemini implícito: ~75 % × 0,7 + 0 → efectivo ≈ base × 0,48
  • DeepSeek-v4: ~75 % × 0,7 + 0 → efectivo ≈ base × 0,48

Multiplica por la tarifa base real de cada proveedor (distinta entre proveedores) para obtener la cifra comparable en dólares. Puntuación: calcula effective_cost para tu carga de trabajo; menor es mejor.

4.2 Predictibilidad de la tasa de aciertos

  • Cacheadores explícitos (Claude, Qwen explícito, Gemini explícito) — alta predictibilidad. Lo marcaste, acierta (dentro del TTL).
  • Cacheadores automáticos (GPT-5, DeepSeek-v4, Gemini implícito, Qwen implícito) — depende de la similitud de prefijos y de la carga del proveedor (desalojo LRU).

Para SLA ligados al coste, prefiere lo explícito. Para una optimización de mejor esfuerzo, lo automático está bien.

4.3 Idoneidad TTL ↔ cadencia de tráfico

Patrón de tráficoLo que necesitas
Continuo (segundos entre llamadas)El valor predeterminado de cualquier proveedor funciona
Ligado a sesión (minutos)TTL de 5–60 min (Claude, GPT-5, Qwen)
En ráfagas (horas entre ráfagas)TTL de 1 hora+ (Claude 1h, Gemini explícito, DeepSeek-v4)
Esporádico (consultas por día)TTL de 24 horas (Gemini explícito) o aceptar escrituras en frío

4.4 Latencia en caso de fallo de caché

Un proveedor rápido en aciertos pero lento en fallos sigue siendo problemático si tu tasa de aciertos no es alta. Compara ambas cifras de §3.3 y pondera por la tasa de aciertos esperada.

4.5 Ergonomía de la API y coste de migración

  • Migración mínima: GPT-5 ↔ DeepSeek-v4 (ambos con forma de OpenAI, ambos con caché automático).
  • Media: GPT-5 → Gemini implícito (SDK distinto, sin código de caché que reescribir).
  • Alta: GPT-5 → Claude (debe añadir cache_control, reestructurar las capas del prompt).
  • Máxima: cualquier paso de un solo proveedor a multiproveedor sin pasarela (múltiples API de caché).

5. Veredictos rápidos por forma de carga de trabajo

Carga de trabajoElecciónPor qué
Chat en inglés, usuarios globalesclaude-haiku-4-5 o gpt-5.4-nanoDescuento de caché profundo + modelo pequeño y rápido
Chat en chino, continentedeepseek-v4-flash o qwen3.5-flashCaché a escala de horas + bajo coste en idioma CN
RAG en inglés (alta calidad)claude-sonnet-4-5 + multipunto de rupturaLa estructura de prompt en capas se cachea eficientemente
RAG en chino (sensible al coste)deepseek-v4-flashLa granularidad de 64 tokens tolera la reordenación de la recuperación
Preguntas y respuestas sobre documento largo (esporádico)gemini-2.5-pro explícitoTTL de 24 horas, diseñado para esto
Base de código GPT existente, sin reescrituragpt-5.4-mini (statu quo)~50 % de ahorro gratis
Agentes complejos (15+ pasos)claude-sonnet-4-5 + cache_control de 4 BP85 %+ de tasa de aciertos en tráfico de agentes
Portabilidad multiproveedorPasarela, cualquier modeloUn SDK, una cabecera de autenticación

6. Consideraciones de migración

Si tu puntuación dice cambiar, tres cosas que planificar:

Movimiento de datos. Los prefijos cacheados no se transfieren entre proveedores: cada cambio es un arranque en frío. Presupuesta varias horas de coste superior al normal durante el calentamiento.

Re-arquitectura de prompts. El diseño multipunto de ruptura de Anthropic fomenta una estructura de prompt en capas que en realidad es mejor para cualquier proveedor: refactorizar una vez también beneficia a las rutas no-Claude.

Cobertura mediante una pasarela. Si no estás seguro, enruta a través de una Token Gateway. Conservas la opcionalidad sin comprometerte con un único proveedor, a costa de un salto adicional y (según la pasarela) de perder potencialmente el acceso a los controles de caché específicos del proveedor. Ver Parte 3 §9 sobre lo que la pasarela de Synthorai hace realmente vs las afirmaciones de las que deberías desconfiar.


7. Lo que cambia con el tiempo

Una nota sobre la durabilidad de estas comparaciones: las cifras de este artículo se moverán. El caché se ha convertido en una función competitiva en precio, y los proveedores actualizan sus ofertas cada pocos meses. Dos cosas que vigilar:

  • Extensiones de TTL. La opción de 1 hora de Anthropic está en GA; Gemini podría estirarse a varios días. Espera que la ansiedad por el TTL disminuya.
  • Granularidad. OpenAI y Anthropic probablemente reduzcan su mínimo de 1.024 tokens en algún momento; el listón de 64 tokens de DeepSeek estableció la nueva expectativa.

Cuando los descuentos convergen, el diferenciador pasa a ser la ergonomía de la API y la latencia, no el ahorro de titular.


Próximamente: Parte 3 — Tutorial de caché de prompts: Python funcional toma el panorama arquitectónico anterior y lo convierte en código ejecutable con la tabla de latencia de §3.3 reproducida como un benchmark que puedes ejecutar tú mismo.


Preguntas frecuentes

¿Qué proveedor de LLM tiene el caché de prompts más barato, en términos generales? A igual tasa de aciertos (~75 %), deepseek-v4-flash para cargas de trabajo en chino y gemini-2.5-flash implícito para inglés son los más baratos en coste efectivo por millón en nuestras mediciones de 2026-05. claude-sonnet-4-5 tiene el descuento por llamada única más profundo (~90 %), pero un precio base más alto: gana cuando la tasa de aciertos es >85 %. Introduce tu propia tasa de aciertos en la fórmula de §4.1.

¿Por qué Gemini cuesta más en cargas de trabajo de bajo volumen? La tarifa de almacenamiento por hora de los cachés explícitos se come el descuento a menos que consultes el caché con frecuencia. Para cargas de trabajo de bajo volumen, usa el caché implícito de Gemini (sin tarifa de almacenamiento, ~25 % de descuento).

¿Puedo usar el cache_control de Claude con OpenAI? No directamente: son implementaciones de caché separadas. En el endpoint compatible con OpenAI /chat/completions, el campo suele no tener efecto frente a modelos no-Anthropic (esos cachean automáticamente de todos modos). Para Claude específicamente, usa el endpoint nativo de Anthropic /v1/messages con los marcadores.

¿Es propietaria la arquitectura MLA de DeepSeek? El paper (DeepSeek-AI 2024) es público. Otros proveedores podrían adoptar compresión KV al estilo MLA, pero requiere reentrenar el modelo base: no es un cambio en tiempo de ejecución. A fecha de 2026-05, DeepSeek sigue siendo el único gran proveedor que lo ofrece en producción.

¿Y los modelos open source autoalojados? vLLM, SGLang y otros motores de inferencia admiten el caché de prefijos de forma nativa (el paper de PagedAttention es la base). Si te autoalojas en H100/H200, puedes implementar caché respaldado en disco con LMCache o similar. El análisis de precios aquí solo se aplica a los servicios gestionados: la economía del autoalojamiento es completamente distinta.

¿Por qué no hay proveedores de API de Mistral, Cohere o Llama en esta comparación? Sus ofertas de caché están menos maduras a fecha de 2026-05. El caché de Mistral está en acceso anticipado; Cohere no expone caché explícito; los proveedores de API de Llama (Groq, Together, Replicate) varían mucho. Revisar cuando sus conjuntos de funciones se estabilicen.


Fuentes: Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). Cifras medidas desde https://synthorai.io/v1 el 2026-05-25.

← Volver al blog