Le nouveau tokenizer de Claude Sonnet 5 : 41 % de tokens en plus par prompt

1 juillet 2026 · claude-sonnet-5 · prompt-cache · cost · model-update

Sommaire

Disponibilité
Prix : bon marché maintenant, retour au tarif de Sonnet 4.6 en septembre
Cache et TTL : rien à changer
Le piège du comptage des tokens
Sonnet 5 face à Opus 4.8 : le gain durable
Checklist de migration
L’essentiel
FAQ

claude-sonnet-5 est disponible sur le gateway Synthorai, et pour l’instant il est bon marché : 2 $ / 10 $ par million de tokens en entrée / sortie, soit 2,5× moins cher qu’Opus 4.8 et en dessous de Sonnet 4.6. Profitez-en tant que ça dure. C’est un tarif de lancement valable jusqu’au 31 août 2026 ; le 1er septembre, le tarif repasse à 3 $ / 15 $, exactement comme Sonnet 4.6.

Si vous cachez sur la gamme Claude, le contrat de caching et de TTL se transpose tel quel. C’est le coût qu’il faut regarder à deux fois, et la raison tient à la façon dont Sonnet 5 compte les tokens. Il embarque un nouveau tokenizer qui transforme le même texte anglais en environ 41 % de tokens d’entrée en plus par rapport à Sonnet 4.6, et c’est le nombre de tokens qui détermine ce que vous payez et vos limites. Le tarif affiché ne représente que la moitié de la facture.

Voici ce que ce changement de comptage des tokens impacte, avant même toute modification de code ou question de qualité :

Le coût par prompt. Au tarif standard, le même prompt anglais coûte environ 41 % de plus que sur Sonnet 4.6, puisqu’un texte identique est facturé en plus de tokens au même prix unitaire.
Toutes les estimations basées sur les tokens. Un budget par appel, ou un décompte fait avec un tokenizer local, calibré sur 4.6 sous-estime d’environ 40 % sur Sonnet 5. Mesurez le usage réel, pas une estimation locale.
La marge dans la fenêtre de contexte. Le même document consomme environ 41 % de fenêtre en plus, donc les appels long-contexte et RAG font tenir moins de texte réel par requête.
Les rate limits. Un plafond de tokens par minute s’épuise environ 41 % plus vite pour la même charge, ce qui réduit le débit.
L’éligibilité au cache (un petit avantage). Le minimum de 1 024 tokens est plus facile à atteindre, donc un préfixe qui restait juste en dessous sur 4.6 peut devenir cachable sur Sonnet 5.

Le reste de l’article met des chiffres mesurés sur chacun de ces points : le prix, l’économie du caching et le décalage de comptage des tokens.

Prix, caching, TTL et décompte des tokens mesurés sur https://synthorai.io/ (/v1/messages en natif Anthropic) le 2026-07-01. Les prix par token sont dérivés du coût usage sur des appels réels ; les tarifs de lancement/standard et l’expiration au 31 août viennent de l’annonce d’Anthropic. Refaites la mesure sur votre propre prompt avant de citer ces chiffres.

Disponibilité

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

Changez le champ model et rien ne bouge dans votre chemin de caching. Le fonctionnement de cache_control est détaillé dans le tutoriel sur le caching ; l’architecture qui explique pourquoi le cache existe est dans la partie 1 de la série.

Prix : bon marché maintenant, retour au tarif de Sonnet 4.6 en septembre

Tarification au token sur le gateway, dérivée du coût usage sur les appels simples (sans cache) :

Modèle	Input ($/M)	Output ($/M)
`claude-sonnet-5` (intro, jusqu’au 31 août)	$2.00	$10.00
`claude-sonnet-5` (standard, à partir du 1er sept.)	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

Le tarif d’intro est une vraie remise, et face à Opus 4.8 c’est la partie durable de l’histoire : même au tarif standard de $3 / $15, Sonnet 5 reste moins cher qu’Opus, et les deux partagent un tokenizer (voir plus bas), donc la comparaison est propre aux deux prix.

Face à Sonnet 4.6, la remise est temporaire. Le 1er septembre, le prix affiché devient identique ; toute stratégie « Sonnet 5 est moins cher que 4.6 » basée sur le chiffre d’aujourd’hui expire avec la promo. Et comme le montre la section suivante, à prix affiché égal, Sonnet 5 est en fait le plus cher des deux pour un même texte.

On ne publie pas de benchmarks de capacité qu’on n’a pas exécutés ; savoir si la qualité de Sonnet 5 justifie son coût par rapport à 4.6, c’est votre eval, pas la nôtre.

Cache et TTL : rien à changer

Le contrat de cache est identique au reste de la gamme Claude. On a lancé une séquence écriture à froid / lecture à chaud avec un préfixe stable de 2,2K tokens, en variant le message utilisateur à chaque appel pour qu’aucun cache au niveau réponse ne vienne fausser le résultat. Coût par tour à chaud, au tarif d’intro actuel :

Modèle	Tour à froid (écriture cache)	Tour à chaud (lecture cache)	Froid → chaud
`claude-sonnet-5` (intro)	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

Les invariants tiennent comme sur toute la gamme Opus :

Remise en lecture ≈ 90 %. Une lecture de cache à chaud coûte environ 10 % du prix input, ce qui correspond aux économies « jusqu’à 90 % » sur les lectures cachées documentées par Anthropic. Le seuil de rentabilité est atteint dès le premier hit.
Le TTL d’1 heure fonctionne pareil. cache_control: {"type": "ephemeral", "ttl": "1h"} est accepté sur Sonnet 5, et l’objet usage répartit les buckets comme avant : cache_creation.ephemeral_5m_input_tokens vs ephemeral_1h_input_tokens. Le surcoût d’écriture à 1 heure est d’environ 2× le prix sans cache (contre environ 1,25× pour l’écriture à 5 minutes) ; les lectures restent à ≈10 % quel que soit le TTL.

Une réserve sur le tableau : ces dollars par tour à chaud sont au tarif d’intro. À partir du 1er septembre, multipliez les chiffres de Sonnet 5 par 1,5× ($2 → $3 input, $10 → $15 output). Un tour à chaud sur Sonnet 5 qui coûte $0.0017 aujourd’hui reviendra à environ $0.0026 en septembre, toujours sous les $0.0043 d’Opus 4.8, mais plus sous ceux de Sonnet 4.6.

Le piège du comptage des tokens

Voici ce qui fait mal deux fois avec la remise à zéro de septembre. Le même texte système compte environ 41 % de tokens d’entrée en plus sur Sonnet 5 que sur Sonnet 4.6.

Modèle	Tokens d’entrée (texte identique)	Coût d’entrée au prix standard
`claude-sonnet-4-6`	1 594	0,0048 $
`claude-sonnet-5`	2 245	0,0067 $
`claude-opus-4-8`	2 245	0,0112 $

Sonnet 5 tokenise le même prompt anglais en 2 245 tokens, le même chiffre que celui d’Opus 4.8, et bien au-dessus des 1 594 de Sonnet 4.6. Sonnet 5 est arrivé avec le nouveau tokenizer que la gamme Opus avait adopté en 4.7.

En rapprochant le prix et le nombre de tokens, le tableau est clair :

Pendant la période d’introduction, la hausse de 41 % des tokens est compensée par le tarif inférieur de 33 % (2 $ contre 3 $) : le même prompt non caché coûte donc à peu près ce qu’il coûtait en 4.6, et les tours chauds reviennent moins cher grâce à la sortie remisée.
À partir du 1er septembre, le tarif rejoint celui de 4.6, mais pas le nombre de tokens. Le même prompt anglais coûte environ 41 % de plus sur Sonnet 5 que sur Sonnet 4.6 (0,0067 $ contre 0,0048 $ pour ce préfixe), parce que le texte identique est simplement compté comme davantage de tokens au même prix unitaire.

Face à Opus 4.8, ce piège n’existe pas : le tokenizer est le même (2 245 = 2 245), donc Sonnet 5 est franchement moins cher, aussi bien au tarif d’introduction (2,5×) qu’au tarif standard (1,67×).

Budgétisez donc la facture de septembre, pas celle de juillet : le tarif par token augmente de 1,5× le 1er septembre, et le nombre de tokens plus élevé est déjà en place aujourd’hui. Et lisez cache_creation_input_tokens / cache_read_input_tokens directement dans la réponse en direct plutôt que dans un tokenizer local qui utilise peut-être encore l’ancien vocabulaire.

Sonnet 5 face à Opus 4.8 : le gain durable

C’est la comparaison que ce lancement modifie pour de bon. Sonnet 5 et Opus 4.8 partagent un tokenizer : sur n’importe quel prompt, le nombre de tokens est identique et la différence de coût tient uniquement au tarif. 2,5× moins cher au prix d’introduction, 1,67× moins cher au prix standard, sur les tours froids comme chauds, en entrée comme en sortie. Un tour chaud avec cache coûte aujourd’hui 0,0017 $ contre 0,0043 $ ; même en septembre, c’est environ 0,0026 $ contre 0,0043 $.

Pour une boucle d’agent à fort volume qui met en cache un préfixe répété à chaque tour, cet écart se cumule. La décision reste la même : faites tourner votre propre éval, et si Sonnet 5 passe votre seuil de qualité, le calcul côté gateway le favorise durablement, pas seulement jusqu’en août. Sinon, Opus 4.8 est à un champ model d’écart, avec le même code de caching.

Checklist de migration

✅ Le code de caching se transpose tel quel. Les marqueurs cache_control, le nombre de breakpoints, ttl: "1h", les noms des champs usage sont tous identiques à la gamme Opus.
✅ Les choix de TTL se transposent. 5 min pour les charges live/session, 1 h pour les charges en rafale ou les agents avec pauses.
✅ L’économie des remises se transpose. ≈90 % en lecture, ≈1,25× en écriture (5 min), ≈2× en écriture (1 h).
⚠️ Notez le 1er septembre sur votre budget. Le tarif d’introduction se termine le 31 août ; Sonnet 5 passe à 3 $ / 15 $. Modélisez la hausse de 1,5× avant qu’elle n’arrive.
⚠️ Remesurez le nombre de tokens (depuis 4.6 ou avant). Même texte, environ 41 % de tokens en plus sur Sonnet 5. Au tarif standard, cela rend le même prompt plus cher qu’en 4.6, pas moins.
⚠️ Fiez-vous à l’objet usage en direct. Lisez *_input_tokens et cost dans la réponse, pas dans une estimation en cache issue de l’ancienne génération.

L’essentiel

Sonnet 5 est une bonne affaire, mais avec une date d’expiration. Face à Opus 4.8, il reste durablement 1,67 à 2,5× moins cher, avec un chemin de caching immédiat — ce qui en fait le premier candidat évident à évaluer pour toute charge Opus qui n’exige pas une qualité maximale. Face à Sonnet 4.6, l’avantage se limite à la remise de lancement : au 1er septembre, le prix rejoint celui de 4.6, et le nouveau tokenizer fait que le même prompt coûte en réalité plus cher. Profitez de la remise, mais calez votre budget sur les chiffres de septembre et vérifiez vos comptes de tokens sur l’objet usage en direct avant de promettre quoi que ce soit à la finance.

Pour tout le détail sur le caching, voir la série en quatre parties qui commence par How KV Cache & TTL Work et le tutoriel Python fonctionnel.

FAQ

Sonnet 5 est-il moins cher que Sonnet 4.6 ? Seulement pendant la période de lancement. Jusqu’au 31 août 2026, c’est 2 $ / 10 $ contre 3 $ / 15 $ pour 4.6. À partir du 1er septembre, c’est 3 $ / 15 $, soit le même tarif. Et comme le même texte représente environ 41 % de tokens en plus sur Sonnet 5, au prix standard le même prompt coûte plus cher que sur 4.6.

Quand se termine le tarif de lancement ? Le 31 août 2026, selon l’annonce d’Anthropic. Le 1er septembre, le tarif passe à 3 $ par million de tokens en entrée et 15 $ par million en sortie.

Sonnet 5 est-il beaucoup moins cher qu’Opus 4.8 ? 2,5× au tarif de lancement, 1,67× au tarif standard, aussi bien en entrée qu’en sortie. Ils partagent le même tokenizer, donc les comptes de tokens correspondent et l’écart tient uniquement au tarif, aux deux prix.

Dois-je modifier mon code cache_control ? Non. La syntaxe des marqueurs, la limite de breakpoints et les options de TTL sont identiques à celles de la gamme Opus. Changez le champ model, et rien d’autre. Les lectures à chaud coûtent ≈10 % du prix d’entrée ; l’écriture 1 heure coûte ≈2× le prix sans cache, l’écriture 5 minutes ≈1,25×.

Sonnet 5 remplace-t-il Opus 4.8 sans modification ? Côté caching, TTL et coût, la migration est triviale et c’est moins cher aux deux prix. Côté qualité, faites votre propre eval ; nous ne publions pas de benchmarks de capacité que nous n’avons pas exécutés nous-mêmes. Pour les affirmations sur la qualité du modèle, voir la model card d’Anthropic.

Vérification : les chiffres de prix, de caching, de TTL et de comptage de tokens ont été mesurés sur https://synthorai.io/ le 2026-07-01 via le chemin natif Anthropic /v1/messages, en tenant unique. Les prix par token sont dérivés du coût usage sur des appels simples ; le coût par tour est une médiane sur petit échantillon avec un préfixe caché de 2,2K tokens et reflète le tarif de lancement actuel. Le tarif de lancement et l’expiration au 31 août 2026 proviennent de l’annonce de Sonnet 5 par Anthropic ; les ratios remise/surcoût ont été recoupés avec la documentation Prompt Caching d’Anthropic. Vos chiffres varieront selon le prompt, la région et la charge.

← Retour au blog