Cache de Claude Fable 5 : même contrat, facture 2,9 fois plus élevée qu’avec Opus 4.6

10 juin 2026 · Mis à jour le 21 juillet 2026 · claude-fable-5 · prompt-cache · tokenizer · model-update

Sommaire

Disponibilité
Le point clé : Fable 5 utilise le nouveau tokenizer
Comportement du cache : contrat inchangé
Comportement des TTL : les deux durées sont respectées
Coût : prix multiplié par 2 x nombre de tokens multiplié par 1,45
Checklist de migration (Opus → Fable 5)
Conclusion
FAQ

claude-fable-5 est désormais disponible sur la gateway Synthorai. Si vous utilisez déjà le cache avec la gamme Claude, le contrat de cache et de TTL reste le même : mêmes marqueurs cache_control, mêmes TTL de 5 minutes et 1 heure, mêmes surcoûts à l’écriture et même forte réduction à la lecture. Pour migrer votre code de cache, il suffit de modifier une chaîne de caractères.

Le principal point à budgéter n’est pas le fonctionnement du cache, mais la facture. Le tarif affiché de Fable 5 est 2 fois supérieur à celui d’Opus par token, et le même texte anglais produit environ 45 % de tokens supplémentaires par rapport à Opus 4.6. Fable 5 utilise le tokenizer introduit après la version 4.6, identique à celui d’Opus 4.8. Ces deux multiplicateurs se cumulent. Cet article présente toutes les mesures.

Avant de migrer, vérifiez aussi une contrainte sans rapport avec le cache : Fable 5 ne peut pas fonctionner avec une politique de conservation nulle des données. Une conservation des données pendant 30 jours est obligatoire sur tous les clouds où le modèle est disponible.

TL;DR

Claude Fable 5 conserve le contrat de cache d’Anthropic sans changement : mêmes marqueurs cache_control, TTL de 5 minutes et 1 heure, surcoûts à l’écriture d’environ 1,25x/2x et lecture mesurée à chaud à environ 6 % du prix sans cache.
Un texte identique produit 9,619 tokens sur Fable 5 et Opus 4.8, contre 6,614 sur Opus 4.6, soit 45 % de plus.
Le tarif affiché de Fable 5 est de $10/M en entrée et $50/M en sortie, soit 2 fois celui de la gamme Opus.
Le même prompt coûte donc 2,9 fois plus qu’avec Opus 4.6 (1,45 pour les tokens x 2,0 pour le prix), selon les mesures du 2026-06-10.

Toutes les valeurs ci-dessous ont été mesurées le 2026-06-10 sur https://synthorai.io/, via l’endpoint natif Anthropic /v1/messages, avec un system prompt stable en anglais d’environ 6,6K à 9,6K tokens, un max_tokens faible et une seule exécution séquentielle. Les coûts proviennent du champ usage.cost de la gateway. Les ratios sont les données transposables : nombre de tokens, surcoût à l’écriture, réduction à la lecture et coût relatif entre modèles. Les montants absolus varient avec la taille du prompt. Refaites les mesures avec votre propre prompt avant de les citer.

Disponibilité

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-fable-5",             # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost

Remplacez claude-opus-4-6 par claude-fable-5 sans toucher au reste du code de cache. Fable 5 est un modèle natif Anthropic doté d’une fenêtre de contexte de 1M tokens. À noter côté comportement : c’est un modèle de reasoning qui émet des thinking tokens par défaut. Lors de nos tests, même une instruction triviale comme « reply OK » produisait une valeur output_tokens_details.thinking_tokens > 0, alors qu’Opus 4.6/4.8 renvoyait zéro. Intégrez ces tokens de sortie à votre budget. Le fonctionnement de cache_control est détaillé dans le tutoriel sur le cache. L’architecture expliquant pourquoi ce cache existe est présentée dans la première partie de la série.

Le point clé : Fable 5 utilise le nouveau tokenizer

Le nombre de tokens de la gamme Opus a augmenté à partir de la génération 4.7 : un même texte anglais compté à environ 6,6K tokens sur la version 4.6 en produit environ 9,6K sur la version 4.8. Fable 5 utilise le nouveau tokenizer : un texte identique produit exactement le même nombre de tokens que sur Opus 4.8.

Modèle	Tokens d’entrée (texte identique)	Génération du tokenizer
`claude-opus-4-6`	6,614	antérieure à 4.7
`claude-opus-4-8`	9,619	postérieure à 4.7
`claude-fable-5`	9,619	postérieure à 4.7 (identique à 4.8)

Le même system prompt produit environ 45 % de tokens supplémentaires sur Fable 5 par rapport à Opus 4.6 (9,619 / 6,614 = 1,45). C’est le chiffre essentiel à retenir avant une migration. Toutes les valeurs en aval sont calculées en tokens : coût, seuil d’éligibilité au cache de 1,024 tokens et budget par appel.

Il s’agit d’une observation mesurée : un texte identique produit le même nombre de tokens sur Fable 5 et Opus 4.8, soit environ 45 % de plus que sur Opus 4.6. Ces résultats correspondent au changement de tokenizer et de vocabulaire introduit avec la génération 4.7. Si vous migrez depuis la version 4.6 ou une version antérieure, refaites vos mesures. Depuis la version 4.7/4.8, attendez-vous à des résultats identiques.

Comportement du cache : contrat inchangé

Nous avons exécuté la même séquence sans cache / écriture à froid / lecture à chaud sur chaque modèle. La structure tarifaire est identique de bout en bout. Fable 5 prend en charge cache_control et renvoie les mêmes champs d’usage : cache_creation_input_tokens, cache_read_input_tokens et les compartiments ephemeral_5m / ephemeral_1h.

Modèle	Écriture en cache 5m	Écriture en cache 1h	Lecture à chaud
`claude-opus-4-6`	1,25x	2,00x	~9 % du prix sans cache
`claude-opus-4-8`	1,25x	2,00x	~6 % du prix sans cache
`claude-fable-5`	1,24x	1,99x	~6 % du prix sans cache

Deux propriétés restent constantes sur les trois modèles :

Surcoût à l’écriture ≈ 1,25x (5m), ≈ 2x (1h). Le premier appel, effectué à froid, coûte environ 1,25 fois le prix sans cache pour alimenter une entrée valable 5 minutes, ou environ 2 fois ce prix pour une entrée valable 1 heure. Un seul hit suffit à atteindre le seuil de rentabilité.
Réduction à la lecture ≈ 90 %+. Sur Fable 5, une lecture à chaud coûtait environ 6 % du prix d’un appel sans cache, soit une réduction d’environ 94 %. Ce résultat correspond à l’économie d’environ 90 % documentée par Anthropic, et lui est même légèrement supérieur. La lecture reste fortement réduite quel que soit le TTL.

Ces pourcentages sont stables sur toute la gamme. Comme lors du passage d’Opus 4.7 à 4.8, la facture absolue plus élevée de Fable 5 s’explique par le prix et le nombre de tokens, pas par l’économie du cache. La section suivante détaille ce point.

Comportement des TTL : les deux durées sont respectées

Fable 5 prend en charge les deux mêmes TTL que le reste de la gamme : une durée glissante de 5 minutes par défaut et une fenêtre optionnelle de 1 heure. Nous avons isolé chaque TTL avec un préfixe unique par appel afin qu’aucune entrée existante ne fausse le résultat. L’objet d’usage indique bien le compartiment correspondant : cache_creation.ephemeral_5m_input_tokens ou ephemeral_1h_input_tokens.

# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}

L’écriture avec un TTL de 1 heure coûte environ 2 fois le prix sans cache, contre environ 1,25 fois pour une écriture de 5 minutes. Les lectures restent fortement réduites quel que soit le TTL, exactement comme avec Opus 4.6/4.8. Si vous aviez choisi 5m pour le chat en temps réel et 1h pour des agents interrompus par des validations humaines, conservez ces choix sur Fable 5.

Coût : prix multiplié par 2 x nombre de tokens multiplié par 1,45

C’est sur ce point que Fable 5 diffère réellement. Deux facteurs augmentent la facture et se multiplient.

1. Le tarif affiché est 2 fois supérieur à celui de la gamme Opus.

Modèle	Entrée ($/M)	Sortie ($/M)	Lecture du cache ($/M)
`claude-opus-4-6` / `4-8`	5	25	0.5
`claude-fable-5`	10	50	1

2. Le même texte produit environ 45 % de tokens supplémentaires par rapport à la version 4.6, en raison du changement de tokenizer décrit plus haut.

Le cumul des deux rend le même prompt anglais nettement plus cher. Voici les résultats mesurés avec un system prompt identique sur chaque modèle, à partir du champ usage.cost de la gateway et d’une même exécution unique :

Comparaison	Ratio de tokens	Ratio de prix	Ratio mesuré du coût pour le même prompt
Fable 5 vs Opus 4.8	1,00x	2,0x	2,0x
Fable 5 vs Opus 4.6	1,45x	2,0x	2,9x

Par rapport à Opus 4.8, qui utilise le même tokenizer, Fable 5 coûte exactement 2x plus cher : la différence vient uniquement du tarif. Par rapport à Opus 4.6, le changement de tokenizer s’ajoute à celui du prix et porte le coût du même prompt à environ 2,9x. La réduction offerte par le cache ne change pas, mais elle s’applique à une base absolue environ 2,9 fois supérieure à celle de la version 4.6. Si votre budget par appel repose sur Opus 4.6, recalculez-le.

Conséquence pratique : revérifiez le seuil d’éligibilité au cache de 1,024 tokens. Anthropic ne met en cache que les préfixes atteignant une taille minimale. Un prompt situé juste sous ce seuil sur la version 4.6, selon l’ancien tokenizer, peut désormais le dépasser sur Fable 5, qui produit environ 45 % de tokens supplémentaires. L’inverse vaut pour les estimations de taille fondées sur l’ancien comptage. Lisez toujours cache_creation_input_tokens / cache_read_input_tokens dans la réponse réelle au lieu de vous fier à un tokenizer local qui ne correspond pas nécessairement à celui du modèle.

Checklist de migration (Opus → Fable 5)

✅ Le code de cache est repris tel quel. Marqueurs cache_control, nombre de breakpoints (jusqu’à 4), ttl: "1h" et noms des champs d’usage : tout est identique.
✅ Les choix de TTL restent valables. 5m pour les workloads en temps réel ou liés à une session, 1h pour les appels irréguliers ou les agents interrompus par des pauses.
✅ L’économie du cache reste la même. Réduction d’environ 90 % ou plus à la lecture, surcoût d’environ 1,25x à l’écriture (5m) et d’environ 2x (1h).
⚠️ Recalculez le coût absolu. Fable 5 coûte environ 2 fois plus cher qu’Opus par token, et environ 2,9 fois plus cher pour un même prompt qu’Opus 4.6. Le pourcentage de réduction reste le même, mais pas la base sur laquelle il s’applique.
⚠️ Refaites les mesures du nombre de tokens si vous migrez depuis la version 4.6 ou une version antérieure. Attendez-vous à environ 45 % de plus pour le même texte. Depuis la version 4.7/4.8, le comptage devrait être identique.
⚠️ Tenez compte des thinking tokens émis par défaut. Fable 5 produit des reasoning tokens par défaut. Ils sont facturés au tarif de sortie ($50/M). Limitez ou désactivez le thinking si vous n’en avez pas besoin.

Conclusion

Pour une équipe qui utilise déjà le cache avec Claude, l’intégration de claude-fable-5 est simple : toute l’interface de cache et de TTL reste stable. Il n’y a rien à réapprendre ni aucun code à réécrire. En revanche, le passage depuis Opus 4.6 n’est pas neutre pour le budget. Entre un tarif par token multiplié par 2 et une hausse d’environ 45 % du nombre de tokens due au tokenizer, le même prompt coûte environ 2,9 fois plus cher. Vérifiez vos chiffres dans l’objet usage réel, déterminez si vous avez besoin des thinking tokens produits par défaut et dimensionnez les breakpoints du cache selon les nouveaux nombres de tokens.

Pour une présentation complète des pratiques de cache, notamment la structure des prompts, le diagnostic du hit rate et les patterns adaptés aux TTL, consultez le guide complet du prompt caching, le premier article de la série Fonctionnement du KV Cache et des TTL et le tutoriel Python prêt à l’emploi.

FAQ

Dois-je modifier mon code cache_control pour utiliser Fable 5 ? Non. La syntaxe des marqueurs, la limite de breakpoints et les options de TTL sont identiques à celles de la gamme Opus. Modifiez uniquement le champ model dans le code de cache.

La réduction appliquée aux lectures du cache change-t-elle avec Fable 5 ? Non. Une lecture à chaud ne représente qu’un faible pourcentage à un chiffre du prix d’entrée sans cache, soit une réduction supérieure à environ 90 %. Nous avons mesuré environ 94 % sur Fable 5, conformément à l’économie des lectures mises en cache documentée par Anthropic.

Fable 5 prend-il en charge le TTL de 1 heure ? Oui. {"type": "ephemeral", "ttl": "1h"} fonctionne exactement comme sur Opus. L’écriture de 1 heure coûte environ 2 fois le prix sans cache, contre environ 1,25 fois pour celle de 5 minutes. Dans les deux cas, les lectures restent fortement réduites.

Pourquoi le même prompt coûte-t-il beaucoup plus cher sur Fable 5 que sur Opus 4.6 ? Deux multiplicateurs se cumulent : le tarif par token affiché de Fable 5 est 2 fois supérieur, et le même texte anglais produit environ 45 % de tokens supplémentaires avec le tokenizer postérieur à la version 4.6. Au total, un prompt identique coûte environ 2,9 fois plus cher. La réduction offerte par le cache reste inchangée.

Fable 5 peut-il remplacer directement Opus 4.8 ? Oui pour l’interface de cache et de TTL, ainsi que pour le nombre de tokens. Les comptages sont identiques. Les seules différences sont le tarif multiplié par 2 et les thinking tokens produits par défaut par Fable 5. Nous ne publions pas de benchmarks de capacités que nous n’avons pas exécutés. Pour les résultats concernant la qualité et le reasoning, consultez la model card d’Anthropic.

Vérification : toutes les valeurs relatives au nombre de tokens, au coût, au surcoût d’écriture et à la réduction de lecture ont été mesurées le 2026-06-10 sur https://synthorai.io/ avec le SDK officiel anthropic, sur un seul tenant et au cours d’une seule exécution séquentielle. Le coût provient du champ usage.cost de la gateway. Les ratios entre modèles ainsi que les surcoûts et réductions sont calculés à partir de ces coûts mesurés et ne dépendent d’aucune promotion propre au compte. Les ratios de réduction et de surcoût ont été comparés à la documentation d’Anthropic sur le Prompt Caching. Lors de nos tests, la latence des lectures à chaud (TTFT) était dominée par la variabilité du réseau. Nous l’avons donc écartée, car elle n’était pas fiable. Vos résultats varieront selon le prompt, la région et la charge.

← Retour au blog