Mise en cache des prompts LLM #2 : comparer Claude, GPT, Gemini, DeepSeek

Sommaire
  1. 1. Une taxonomie des types de cache LLM
  2. 1.1 Contrôle : explicite vs implicite vs hybride
  3. 1.2 Persistance : en mémoire vs sur disque
  4. 1.3 Granularité : résolution de correspondance
  5. 1.4 Modèle d’objet : marqueurs par appel vs objets de cache nommés
  6. 2. Analyse approfondie par fournisseur
  7. 2.1 Anthropic Claude — Explicite, en mémoire, granularité 1 024 tokens
  8. 2.2 OpenAI GPT-5.x — Automatique, en mémoire, granularité 1 024 tokens
  9. 2.3 Google Gemini — Hybride, en mémoire, objets de cache nommés
  10. 2.4 DeepSeek-v4 — Automatique, sur disque, granularité 64 tokens
  11. 2.5 Alibaba Qwen3 — Hybride, en mémoire, objets de cache nommés + implicite
  12. 3. Comparaison côte à côte
  13. 3.1 Structure des remises (docs fournisseurs, 2026-05)
  14. 3.2 TTL, granularité et persistance
  15. 3.3 Latence mesurée sur un préfixe de 7K tokens (2026-05-25)
  16. 4. Le cadre d’évaluation à 5 dimensions
  17. 4.1 Coût effectif par million de tokens (pondéré par le taux de hit)
  18. 4.2 Prévisibilité du taux de hit
  19. 4.3 Adéquation TTL ↔ cadence de trafic
  20. 4.4 Latence en cas de cache miss
  21. 4.5 Ergonomie de l’API et coût de migration
  22. 5. Verdicts rapides par forme de charge de travail
  23. 6. Considérations de migration
  24. 7. Ce qui change avec le temps
  25. FAQ

TL;DR — Cinq grands fournisseurs de LLM exposent la mise en cache des prompts sous cinq formes très différentes : marqueurs explicites (Claude), entièrement automatique (GPT-5, DeepSeek-v4), hybride implicite+explicite (Gemini, Qwen) ou support architectural sur disque (le MLA de DeepSeek). Cet article vous donne une comparaison fonctionnalité par fonctionnalité et un cadre d’évaluation à 5 dimensions pour les noter selon votre charge de travail — coût, prévisibilité du taux de hit, latence, adéquation du TTL et ergonomie de l’API. Le contexte architectural est dans la partie 1 : Principes de mise en cache ; les chiffres mesurés et du Python fonctionnel sont dans la partie 3 : Tutoriel.

Série : Partie 2 sur 4 · Précédemment : Partie 1 — Principes de mise en cache · Ensuite : Partie 3 — Tutoriel de code fonctionnel · Partie 4 — Meilleur LLM par cas d’usage


1. Une taxonomie des types de cache LLM

Avant de procéder fournisseur par fournisseur, quatre axes de conception méritent d’être précisés :

1.1 Contrôle : explicite vs implicite vs hybride

  • Explicite — le développeur marque quelles parties du prompt mettre en cache (Anthropic Claude cache_control). Contrôle maximal ; nécessite des modifications de code.
  • Implicite / automatique — le fournisseur détecte automatiquement les préfixes correspondants (OpenAI GPT-5, DeepSeek-v4). Aucune modification de code ; aucun moyen de forcer un hit.
  • Hybride — les deux modes sont disponibles ; on choisit par appel (Gemini, Qwen).

1.2 Persistance : en mémoire vs sur disque

Déterminée par l’architecture du cache KV du fournisseur, pas par la surface de l’API.

  • En mémoire (HBM) — les caches résident dans la mémoire GPU, à courte durée de vie (minutes), avec de gros blocs minimaux (1 024 tokens). Par défaut chez la plupart des fournisseurs.
  • Sur disque — les caches persistent sur SSD/NVMe avec des TTL bien plus longs et une granularité plus fine. DeepSeek propose cela à grande échelle, rendu possible par leur compression Multi-head Latent Attention (MLA) qui réduit le cache KV d’environ 4× (DeepSeek-AI, 2024).

1.3 Granularité : résolution de correspondance

Quelle est la taille minimale d’un préfixe pouvant bénéficier d’une remise ?

  • 64 tokens — DeepSeek (la plus fine du secteur)
  • 128 tokens — OpenAI (incrément de correspondance)
  • 1 024 tokens — bloc minimal pouvant être mis en cache pour Claude, OpenAI, Gemini, Qwen

Une granularité plus fine signifie que le chevauchement partiel de préfixe compte aussi — beaucoup plus tolérant aux petites variations de prompt.

1.4 Modèle d’objet : marqueurs par appel vs objets de cache nommés

  • Marqueurs par appel — chaque requête inclut le contenu à mettre en cache, que le fournisseur hache (Claude, OpenAI, DeepSeek, Qwen implicite).
  • Objets de cache nommés — le développeur crée un cache via un appel d’API séparé, obtient un cache_id, puis le référence plus tard (Gemini explicite, Qwen explicite). On échange une cérémonie supplémentaire contre un contrôle explicite du cycle de vie.

Ces quatre axes interagissent. L’offre d’un fournisseur se décrit par sa position sur chacun. La section suivante parcourt chaque fournisseur individuellement.


2. Analyse approfondie par fournisseur

2.1 Anthropic Claude — Explicite, en mémoire, granularité 1 024 tokens

Modèles phares (2026-05) : claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

API de cache. Marquez jusqu’à quatre points de rupture cache_control n’importe où dans votre système ou votre tableau de messages. Les hits de cache coûtent ~10 % du tarif d’entrée de base ; les écritures de cache coûtent 125 % (une prime de 25 %). Le TTL par défaut est de 5 minutes glissant (chaque hit le réinitialise), avec une option d’1 heure.

Structure tarifaire. Anthropic publie des tarifs par million de tokens et par modèle sur sa page de tarification ; la remise de cache est cohérente dans toute la famille. Pour un prompt système de 8 000 tokens à 100 000 appels/jour sur claude-sonnet-4-5, le coût par appel chute d’environ 8 à 10× une fois le préfixe chaud — rentabilisé après un seul hit.

Comportement du TTL. Par défaut glissant de 5 minutes — chaque hit repousse l’expiration de 5 minutes supplémentaires. Le TTL d’1 heure double le coût d’écriture mais est essentiel pour toute charge de travail comportant des périodes d’inactivité > 5 min.

Granularité. Minimum de 1 024 tokens. Le hachage porte sur la séquence exacte de tokens ; un changement d’un seul caractère au début invalide tout le préfixe.

Ergonomie de l’API. La plus élevée. La conception multi-points de rupture vous permet de mettre en cache « ne change jamais » + « change rarement » + « change par tâche » indépendamment — la meilleure de sa catégorie pour les charges agentiques et RAG où les sections de prompt changent à des cadences différentes.

Pièges.

  • Oublier d’ajouter cache_control signifie aucune mise en cache du tout — contrairement à GPT ou DeepSeek, il n’y a pas de repli implicite.
  • Le hachage du cache est sensible à l’ordre, même au sein des tableaux d’outils/fonctions — triez-les de manière déterministe.
  • Le défaut de 5 min fait de Claude un mauvais choix pour les jobs batch sporadiques sans keep-alive explicite.
  • Si vous appelez Claude via une passerelle, vérifiez que la passerelle prend en charge le chemin natif /v1/messages d’Anthropic avec les marqueurs cache_control (le chemin compatible OpenAI /chat/completions ne propage généralement pas les marqueurs — utilisez le SDK Anthropic pointé vers l’URL de base de la passerelle).

Meilleure adéquation. Agents à long contexte, chat multi-tour avec des prompts système stables, RAG structuré avec mise en cache en couches.


2.2 OpenAI GPT-5.x — Automatique, en mémoire, granularité 1 024 tokens

Modèles phares (2026-05) : gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex pour le code : gpt-5.2-codex, gpt-5.3-codex.

API de cache. Rien à faire — automatique sur chaque requête ≥1 024 tokens. Les hits de cache sont facturés à 50 % du tarif d’entrée ; aucune prime d’écriture. Incrément de correspondance : 128 tokens.

Structure tarifaire. OpenAI publie des tarifs par million de tokens sur sa page de tarification. L’entrée mise en cache bénéficie de 50 % de remise ; la sortie est inchangée.

Mesuré (2026-05-25, prompt système d’environ 6 900 tokens) :

ModèleCoût total missCoût total hitTaux de cache hitTTFT stream hit
gpt-5.4-nano$0.00131$0.00074 (−44%)5,888 / 6,887 (85%)1.00 s
gpt-5.4-mini$0.00267$0.00257*6,400 / 6,887 (93%)0.73 s

* La complétion du passage hit de gpt-5.4-mini était bien plus courte que celle du passage miss ; l’écart de coût mélange ici la remise de cache avec la variation de longueur de complétion. La baisse de latence de 5× (3,63 → 0,73 s) est le signal le plus net.

Comportement du TTL. Valeur exacte non documentée ; les retours de terrain suggèrent 5 à 60 minutes selon la charge et la popularité du préfixe. Les préfixes partagés populaires vivent plus longtemps (le LRU les favorise).

Ergonomie de l’API. Triviale — le code existant continue de fonctionner. Journalisez prompt_tokens_details.cached_tokens pour mesurer le taux de hit.

Pièges.

  • Aucun moyen de forcer un hit. Si votre trafic produit des préfixes uniques, vous n’obtenez rien.
  • La remise de 50 % est plus faible que les 90/75 % de Claude/DeepSeek (équivalente à l’implicite de Gemini, ~25 %).
  • Le streaming rapporte parfois les hits de cache uniquement dans le dernier chunk — instrumentez avec soin et passez stream_options={"include_usage": True}.

Meilleure adéquation. Bases de code existantes utilisant GPT où le coût de réadaptation l’emporte sur les économies marginales. Trafic en rafales où la répétition de préfixes est naturellement élevée.


2.3 Google Gemini — Hybride, en mémoire, objets de cache nommés

Modèles phares (2026-05) : gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

API de cache. Deux modes :

  • Implicite : automatique, comme GPT. Les tokens mis en cache sont facturés à ~25 % du tarif d’entrée. Pas de frais de stockage, pas de configuration.
  • Explicite : créez un objet cachedContent via un appel d’API séparé. Référencez-le par son nom dans les requêtes suivantes. Les tokens mis en cache sont facturés à ~10 % (moins cher), mais vous payez des frais de stockage horaires par million de tokens.

Structure tarifaire. Le long contexte est le point fort de Gemini ; la tarification évolue selon la catégorie de longueur de contexte (seuils en deçà de 200K vs au-delà de 200K avec des tarifs par token plus élevés).

Mesuré (2026-05-25) :

ModèleCoût missCoût hit (stream)Taux de cache hit
gemini-2.5-flash$0.00198$0.00024 (−88%)7,140 / 7,322 (97%)
gemini-2.5-pro$0.00824$0.00205 (−75%)6,120 / 7,328 (84%)

Comportement du TTL. Implicite : minutes, non divulgué. Explicite : défini par le développeur, par défaut 1 heure, jusqu’à 24 heures.

Ergonomie de l’API. Le cache explicite nécessite un flux en 2 étapes (créer → référencer). Le cycle de vie de cachedContent (créer, mettre à jour le TTL, supprimer) est de votre responsabilité.

Pièges.

  • Les frais de stockage sont rédhibitoires pour les caches explicites à faible volume. Calculez toujours le seuil de rentabilité pour votre fréquence d’appels.
  • Le taux de hit du cache implicite est variable ; ne vous y fiez pas pour la modélisation des coûts.
  • Les objets de cache sont liés à une région — les applications multi-régions ont besoin de caches en double.
  • gemini-*-pro est un modèle de raisonnement : avec un petit max_tokens, la complétion est consommée par la réflexion cachée et vous verrez completion_tokens=0. Augmentez max_tokens à ≥256 dans tout chemin orienté utilisateur.

Meilleure adéquation. Un grand document (>20K tokens) interrogé 10+ fois/heure. Q&R sur vidéo. RAG multimodal sur des PDF d’entreprise.


2.4 DeepSeek-v4 — Automatique, sur disque, granularité 64 tokens

Modèles phares (2026-05) : deepseek-v4-flash (général), deepseek-v4-flash (couvre aussi les charges de travail coder sur cette génération).

API de cache. Automatique, comme GPT — mais alimentée par la compression MLA qui rend le cache suffisamment compact pour persister sur disque. Les hits de cache sont facturés à ~25 % du tarif d’entrée ; aucune prime d’écriture. Correspondance minimale : 64 tokens.

Structure tarifaire. Tarifs libellés en yuans sur la page de tarification de DeepSeek. Le taux de hit se traduit approximativement par une réduction de 75 % du coût d’entrée.

Mesuré (2026-05-25) :

ModèleCoût missCoût hitTaux de cache hitTTFT hit
deepseek-v4-flash$0.00091$0.00023 (−74%)6,784 / 7,101 (96%)2.93 s

Comportement du TTL. Heures, parfois plus pour les préfixes à fort trafic. Le stockage sur disque signifie que les caches survivent à la pression sur la mémoire GPU qui évincerait les caches en mémoire chez d’autres fournisseurs.

Granularité. Le minimum de 64 tokens est le plus petit du secteur. Les petites modifications de prompt laissent la majeure partie du préfixe correspondante, au lieu de l’invalider complètement comme chez les fournisseurs à 1 024 tokens.

Ergonomie de l’API. API au format OpenAI ; remplacez l’URL de base. Champ prompt_tokens_details.cached_tokens standard.

Pièges.

  • Modèles de la famille DeepSeek uniquement. Aucun moyen d’utiliser ce cache avec d’autres familles de modèles.
  • La qualité en anglais est excellente mais reste en retrait de Claude/GPT-5 sur les benchmarks de raisonnement les plus difficiles.

Meilleure adéquation. Charges de travail en langue chinoise (coût). Charges de travail à préfixes haute fréquence où la granularité compte (RAG avec un ordre de récupération instable). Jobs batch sensibles au coût.


2.5 Alibaba Qwen3 — Hybride, en mémoire, objets de cache nommés + implicite

Modèles phares (2026-05) : qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes vision : qwen3-vl-plus, qwen3-vl-flash.

API de cache. Deux modes :

  • Implicite : toujours actif, comme GPT. La portion mise en cache est facturée à ~20 % du tarif d’entrée.
  • Explicite : créez un cache via l’API avec un TTL personnalisé. Hits à ~10 %, écritures à 125 %.

Mesuré (2026-05-25) :

ModèleCoût missCoût hitTaux de cache hitTTFT hitNotes
qwen3-max$0.00553$0.005497,040 / 7,234 (97%)1.53 sCache hit rapporté, le champ de coût de la passerelle ne reflétait pas la remise à cette date (à vérifier en production)

Comportement du TTL. Par défaut 5 minutes, configurable par objet de cache. Fenêtre glissante pour l’explicite ; TTL fixe court pour l’implicite.

Ergonomie de l’API. L’implicite est au format GPT (zéro effort). L’explicite est un flux en 2 étapes avec un cycle de vie de cache.

Pièges.

  • Seuls qwen3-max et qwen3.5-plus prennent en charge la mise en cache explicite pour le moment.
  • La disponibilité multi-régions (Singapour, États-Unis) est en cours de déploiement — confirmez la région avant de vous y fier pour des données hors de Chine.
  • Lacunes de documentation par rapport à Anthropic/OpenAI — tests empiriques recommandés.

Meilleure adéquation. Charges de travail d’entreprise chinoises nécessitant un contrôle de cache serré. Clients déjà sur Alibaba Cloud.



3. Comparaison côte à côte

3.1 Structure des remises (docs fournisseurs, 2026-05)

FournisseurPrime d’écriture de cacheTarif d’entrée mise en cacheRemise effective
Anthropic Claude+25%10% de la base~90% de remise
OpenAI GPT-5aucune50% de la base50% de remise
Google Gemini (implicite)aucune~25% de la base~75% de remise
Google Gemini (explicite)aucune, mais frais de stockage horaires~10% de la base~90% de remise si amorti
DeepSeek-v4aucune~25% de la base~75% de remise
Alibaba Qwen3 (implicite)aucune~20% de la base~80% de remise
Alibaba Qwen3 (explicite)+25%~10% de la base~90% de remise

3.2 TTL, granularité et persistance

FournisseurTTL par défautTTL maxPersistanceUnité de correspondance min
Claude5 min glissant1 heureEn mémoire (HBM)1 024 tok
GPT-5~5 min~60 minEn mémoire (HBM)1 024 tok / incrément de 128 tok
Gemini (implicite)minutesnon divulguéEn mémoire1 024 tok
Gemini (explicite)1 heure24 heuresEn mémoire1 024 tok
DeepSeek-v4heuresheures+Disque (SSD)64 tok
Qwen35 minconfigurableEn mémoire~1 024 tok

3.3 Latence mesurée sur un préfixe de 7K tokens (2026-05-25)

Fournisseur / modèleTotal missTTFT hit (stream)Gain de latence
claude-haiku-4-5~3.0 s1.31 s~2×
claude-sonnet-4-5~2.0 s1.76 s~1.2×
claude-opus-4-5~2.2 s2.08 s~1.05×
gpt-5.4-mini~3.6 s0.73 s~5×
gpt-5.4-nano~2.2 s1.00 s~2×
gemini-2.5-flash~2.5 s~1.4 s~1.8×
gemini-2.5-pro~3.0 s~1.8 s~1.7×
deepseek-v4-flash~4.0 s2.93 s~1.4×
qwen3-max~4.8 s1.53 s~3×

† Les lignes Claude sont mesurées avec des marqueurs cache_control via l’endpoint natif Anthropic /v1/messages (voir Partie 3 §2). Le plus grand gain de Claude est sur le coût (~88–89 % de remise sur l’entrée — voir Partie 3 §2 pour le tableau complet des coûts) ; l’amélioration du TTFT s’amplifie considérablement pour les prompts de 100K+ tokens selon les chiffres publiés par Anthropic.

Exécution séquentielle unique, sans charge concurrente. Vos chiffres varieront selon la région, l’heure de la journée et la charge des autres locataires concurrents.


4. Le cadre d’évaluation à 5 dimensions

Des titres comme « Claude économise 90 % » sont intéressants mais vous disent rarement quoi choisir. Notez chaque fournisseur sur ces cinq dimensions pour votre charge de travail, puis pondérez-les selon ce qui vous importe.

4.1 Coût effectif par million de tokens (pondéré par le taux de hit)

Ne comparez pas les prix de base — comparez le coût attendu à votre taux de hit réel :

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Exemple détaillé pour 70 % de répétition de préfixe (chatbot typique) :

  • Claude : remise ~90 % × 0,7 hit + 25 % écriture × 0,3 → effectif ≈ base × 0,45
  • GPT-5 : ~50 % × 0,7 + 0 → effectif ≈ base × 0,65
  • Gemini implicite : ~75 % × 0,7 + 0 → effectif ≈ base × 0,48
  • DeepSeek-v4 : ~75 % × 0,7 + 0 → effectif ≈ base × 0,48

Multipliez par le tarif de base réel de chaque fournisseur (différent selon les fournisseurs) pour obtenir le montant comparable en dollars. Score : calculez effective_cost pour votre charge de travail ; plus bas est meilleur.

4.2 Prévisibilité du taux de hit

  • Caches explicites (Claude, Qwen explicite, Gemini explicite) — haute prévisibilité. Vous l’avez marqué, ça fait un hit (dans le TTL).
  • Caches automatiques (GPT-5, DeepSeek-v4, Gemini implicite, Qwen implicite) — dépend de la similarité des préfixes et de la charge du fournisseur (éviction LRU).

Pour des SLA liés au coût, préférez l’explicite. Pour une optimisation au mieux, l’automatique convient.

4.3 Adéquation TTL ↔ cadence de trafic

Modèle de traficCe dont vous avez besoin
Continu (secondes entre les appels)Le défaut de n’importe quel fournisseur fonctionne
Lié à une session (minutes)TTL de 5 à 60 min (Claude, GPT-5, Qwen)
En rafales (heures entre les rafales)TTL d’1 heure+ (Claude 1h, Gemini explicite, DeepSeek-v4)
Sporadique (requêtes par jour)TTL de 24 heures (Gemini explicite) ou accepter les écritures à froid

4.4 Latence en cas de cache miss

Un fournisseur rapide sur les hits mais lent sur les miss reste problématique si votre taux de hit n’est pas élevé. Comparez les deux chiffres du §3.3 et pondérez par le taux de hit attendu.

4.5 Ergonomie de l’API et coût de migration

  • Migration la plus faible : GPT-5 ↔ DeepSeek-v4 (tous deux au format OpenAI, tous deux à cache automatique).
  • Moyenne : GPT-5 → Gemini implicite (SDK différent, aucun code de cache à réécrire).
  • Élevée : GPT-5 → Claude (doit ajouter cache_control, restructurer les couches de prompt).
  • La plus élevée : tout passage de mono à multi-fournisseur sans passerelle (plusieurs API de cache).

5. Verdicts rapides par forme de charge de travail

Charge de travailÀ choisirPourquoi
Chat anglais, utilisateurs mondiauxclaude-haiku-4-5 ou gpt-5.4-nanoRemise de cache profonde + petit modèle rapide
Chat chinois, continentdeepseek-v4-flash ou qwen3.5-flashCache à l’échelle de l’heure + faible coût sur la langue CN
RAG anglais (haute qualité)claude-sonnet-4-5 + multi-points de ruptureStructure de prompt en couches mise en cache efficacement
RAG chinois (sensible au coût)deepseek-v4-flashLa granularité de 64 tokens tolère la réorganisation de récupération
Q&R sur long document (sporadique)gemini-2.5-pro expliciteTTL de 24 heures, conçu pour cela
Base de code GPT existante, sans réécrituregpt-5.4-mini (statu quo)~50 % d’économies gratuites
Agents complexes (15+ étapes)claude-sonnet-4-5 + cache_control 4-BP85 %+ de taux de hit sur le trafic agentique
Portabilité multi-fournisseursPasserelle, n’importe quel modèleUn SDK, un en-tête d’authentification

6. Considérations de migration

Si votre évaluation dit de changer, trois choses à anticiper :

Déplacement de données. Les préfixes mis en cache ne se transfèrent pas entre fournisseurs — chaque changement est un démarrage à froid. Prévoyez plusieurs heures de coût supérieur à la normale pendant la mise en chauffe.

Ré-architecture des prompts. La conception multi-points de rupture d’Anthropic encourage une structure de prompt en couches qui est en réalité meilleure pour n’importe quel fournisseur — refactoriser une fois bénéficie aussi aux chemins non-Claude.

Couverture via une passerelle. Si vous n’êtes pas sûr, routez via une Token Gateway. Vous conservez l’optionalité sans vous engager auprès d’un seul fournisseur, au prix d’un saut supplémentaire et (selon la passerelle) de la perte potentielle d’accès aux contrôles de cache spécifiques au fournisseur. Voir Partie 3 §9 pour ce que la passerelle Synthorai fait réellement vs les affirmations dont vous devriez vous méfier.


7. Ce qui change avec le temps

Une note sur la durabilité de ces comparaisons : les chiffres de cet article vont évoluer. La mise en cache est devenue une fonctionnalité compétitive sur les prix, et les fournisseurs mettent à jour leurs offres tous les quelques mois. Deux choses à surveiller :

  • Extensions de TTL. L’option d’1 heure d’Anthropic est en GA ; Gemini pourrait s’étendre à plusieurs jours. Attendez-vous à ce que l’anxiété liée au TTL diminue.
  • Granularité. OpenAI et Anthropic abaisseront probablement leur minimum de 1 024 tokens un jour ; la barre de 64 tokens de DeepSeek a fixé la nouvelle attente.

Quand les remises convergent, le facteur différenciant devient l’ergonomie de l’API et la latence — pas les économies affichées.


À venir : Partie 3 — Tutoriel de mise en cache des prompts : Python fonctionnel prend le tableau architectural ci-dessus et le transforme en code exécutable avec le tableau de latence du §3.3 reproduit sous forme de benchmark que vous pouvez exécuter vous-même.


FAQ

Quel fournisseur de LLM propose la mise en cache des prompts la moins chère, tout bien considéré ? À taux de hit égal (~75 %), deepseek-v4-flash pour les charges de travail chinoises et gemini-2.5-flash implicite pour l’anglais ont le coût effectif par million le moins cher dans nos mesures de 2026-05. claude-sonnet-4-5 a la remise par appel unique la plus profonde (~90 %) mais un prix de base plus élevé — il l’emporte quand le taux de hit est >85 %. Insérez votre propre taux de hit dans la formule du §4.1.

Pourquoi Gemini coûte-t-il plus cher sur les charges de travail à faible volume ? Les frais de stockage horaires des caches explicites mangent la remise sauf si vous interrogez le cache fréquemment. Pour les charges de travail à faible volume, utilisez la mise en cache implicite de Gemini (pas de frais de stockage, ~25 % de remise).

Puis-je utiliser le cache_control de Claude avec OpenAI ? Pas directement — ce sont des implémentations de cache distinctes. Sur l’endpoint compatible OpenAI /chat/completions, le champ est généralement sans effet face aux modèles non-Anthropic (ceux-ci mettent en cache automatiquement de toute façon). Pour Claude spécifiquement, utilisez l’endpoint natif Anthropic /v1/messages avec les marqueurs.

L’architecture MLA de DeepSeek est-elle propriétaire ? L’article (DeepSeek-AI 2024) est public. D’autres fournisseurs pourraient adopter une compression KV de style MLA, mais cela nécessite de réentraîner le modèle de base — pas un changement à l’exécution. Au 2026-05, DeepSeek reste le seul grand fournisseur à le proposer en production.

Et les modèles open source auto-hébergés ? vLLM, SGLang et d’autres moteurs d’inférence prennent en charge la mise en cache de préfixe nativement (l’article PagedAttention en est la base). Si vous vous auto-hébergez sur des H100/H200, vous pouvez implémenter une mise en cache sur disque avec LMCache ou similaire. L’analyse tarifaire ici ne s’applique qu’aux services managés — l’économie de l’auto-hébergement est entièrement différente.

Pourquoi aucun fournisseur d’API Mistral, Cohere ou Llama dans cette comparaison ? Leurs offres de mise en cache sont moins matures au 2026-05. La mise en cache de Mistral est en accès anticipé ; Cohere n’expose pas de mise en cache explicite ; les fournisseurs d’API Llama (Groq, Together, Replicate) varient considérablement. À revisiter quand leurs ensembles de fonctionnalités se stabiliseront.


Sources : Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). Chiffres mesurés depuis https://synthorai.io/v1 le 2026-05-25.

← Retour au blog