Claude Sonnet 5 und der neue Tokenizer: 41 % mehr Tokens pro Prompt
Inhalt
claude-sonnet-5 läuft jetzt auf dem Synthorai-Gateway, und aktuell ist es günstig: 2 $ / 10 $ pro Million Input-/Output-Tokens, also 2,5× unter Opus 4.8 und unter Sonnet 4.6. Genieß es, solange es hält. Das ist Einführungspreis bis zum 31. August 2026; ab dem 1. September gilt wieder 3 $ / 15 $, derselbe Listenpreis wie Sonnet 4.6.
Wer gegen die Claude-Reihe cacht, kann den Caching- und TTL-Vertrag unverändert übernehmen. Zweimal hinschauen musst du bei den Kosten, und der Grund liegt darin, wie Sonnet 5 Tokens zählt. Es bringt einen neuen Tokenizer mit, der aus demselben englischen Text rund 41 % mehr Input-Tokens macht als Sonnet 4.6 – und die Tokenzahl bestimmt, was du zahlst und wo dein Limit liegt. Der Listenpreis ist nur die halbe Rechnung.
Das ändert sich durch die Token-Umstellung, noch bevor eine Codeänderung oder eine Qualitätsfrage überhaupt ins Spiel kommt:
- Kosten pro Prompt. Zum Standardtarif kostet derselbe englische Prompt rund 41 % mehr als bei Sonnet 4.6, weil identischer Text zum gleichen Preis pro Token als mehr Tokens abgerechnet wird.
- Jede token-basierte Schätzung. Ein Budget pro Aufruf oder eine Zählung über einen lokalen Tokenizer, ausgelegt auf 4.6, liegt bei Sonnet 5 rund 40 % zu niedrig. Miss die tatsächliche
usage, nicht eine lokale Schätzung. - Puffer im Context-Window. Dasselbe Dokument frisst rund 41 % mehr vom Fenster, also passt pro Request weniger echter Text in Long-Context- und RAG-Aufrufe.
- Rate-Limits. Ein Tokens-pro-Minute-Limit ist bei gleicher Last rund 41 % schneller aufgebraucht und drosselt den Durchsatz.
- Cache-Eignung (ein kleiner Pluspunkt). Das Minimum von 1.024 Tokens wird leichter erreicht, sodass ein Prefix, der bei 4.6 knapp darunter lag, bei Sonnet 5 cachebar werden kann.
Der Rest des Beitrags legt zu jedem Punkt gemessene Zahlen vor: Preis, die Ökonomie des Cachings und die Verschiebung bei der Tokenzahl.
Preise, Caching, TTL und Tokenzahlen gemessen gegen
https://synthorai.io/(Anthropic-nativ/v1/messages) am 2026-07-01. Die Preise pro Token sind aus denusage-Kosten echter Aufrufe abgeleitet; die Einführungs-/Standardtarife und das Auslaufen am 31. August stammen aus der Ankündigung von Anthropic. Reproduziere das mit deinem eigenen Prompt, bevor du Zahlen zitierst.
Verfügbarkeit
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-sonnet-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # cache_creation_input_tokens, cache_read_input_tokens, cost
Tausch das Feld model aus, und an deinem Caching-Pfad ändert sich nichts. Die Mechanik hinter cache_control steht im Caching-Tutorial; die Architektur dahinter, warum der Cache existiert, steht in Teil 1 der Serie.
Preis: aktuell günstig, ab September zurück auf dem Niveau von Sonnet 4.6
Der Preis pro Token im Gateway, abgeleitet aus den usage-Kosten bei einfachen (nicht gecachten) Aufrufen:
| Modell | Input ($/M) | Output ($/M) |
|---|---|---|
claude-sonnet-5 (Einführung, bis 31. Aug.) | $2.00 | $10.00 |
claude-sonnet-5 (Standard, ab 1. Sep.) | $3.00 | $15.00 |
claude-sonnet-4-6 | $3.00 | $15.00 |
claude-opus-4-8 | $5.00 | $25.00 |
Der Einführungspreis ist ein echter Rabatt, und gegenüber Opus 4.8 ist das der bleibende Teil der Geschichte: selbst zum Standardpreis von $3 / $15 bleibt Sonnet 5 günstiger als Opus, und beide teilen sich denselben Tokenizer (dazu unten mehr), der Vergleich ist also bei beiden Preisen sauber.
Gegenüber Sonnet 4.6 ist der Rabatt nur vorübergehend. Ab dem 1. September ist der Listenpreis identisch. Jeder Plan nach dem Muster „Sonnet 5 ist günstiger als 4.6”, der auf dem heutigen Preis aufbaut, läuft also mit der Aktion aus. Und wie der nächste Abschnitt zeigt, ist Sonnet 5 bei gleichem Listenpreis für denselben Text sogar das teurere der beiden Modelle.
Wir veröffentlichen keine Capability-Benchmarks, die wir nicht selbst durchgeführt haben. Ob die Qualität von Sonnet 5 die Mehrkosten gegenüber 4.6 rechtfertigt, entscheidet euer Eval, nicht unseres.
Caching und TTL: ohne Anpassung übernehmbar
Der Caching-Vertrag ist identisch mit dem Rest der Claude-Reihe. Wir haben eine Sequenz aus Cold Write / Warm Read mit einem stabilen Prefix von 2,2K Token gefahren und die User-Message bei jedem Aufruf variiert, damit kein Cache auf Response-Ebene das Ergebnis verfälscht. Kosten pro Warm-Turn, zum aktuellen Einführungspreis:
| Modell | Cold-Turn (Cache Write) | Warm-Turn (Cache Read) | Cold → Warm |
|---|---|---|---|
claude-sonnet-5 (Einführung) | $0.0069 | $0.0017 | 4.0× |
claude-sonnet-4-6 | $0.0079 | $0.0024 | 3.3× |
claude-opus-4-8 | $0.0172 | $0.0043 | 4.0× |
Die Invarianten gelten wie überall in der Opus-Reihe:
- Read-Rabatt ≈ 90 %. Ein Warm-Cache-Read kostet rund 10 % des Input-Preises und passt damit zu Anthropics dokumentierter Cache-Read-Ersparnis von „bis zu 90 %”. Der Break-even liegt bei einem Treffer.
- 1-Stunden-TTL funktioniert genauso.
cache_control: {"type": "ephemeral", "ttl": "1h"}wird bei Sonnet 5 akzeptiert, und dasusage-Objekt trennt die Buckets wie zuvor:cache_creation.ephemeral_5m_input_tokensvs.ephemeral_1h_input_tokens. Der Write-Aufschlag für 1 Stunde liegt bei etwa 2× gegenüber No-Cache (gegenüber etwa 1,25× beim 5-Minuten-Write); Reads bleiben unabhängig vom TTL bei ≈10 %.
Eine Einschränkung zur Tabelle: die Warm-Turn-Beträge gelten zum Einführungspreis. Ab dem 1. September multipliziert die Sonnet-5-Werte mit 1,5× ($2 → $3 Input, $10 → $15 Output). Ein Warm-Turn mit Sonnet 5, der heute $0.0017 kostet, liegt im September bei etwa $0.0026 – immer noch unter den $0.0043 von Opus 4.8, aber nicht mehr unter Sonnet 4.6.
Die Sache mit dem Token-Count
Genau das macht den September-Reset doppelt schmerzhaft. Derselbe System-Text meldet auf Sonnet 5 rund 41 % mehr Input-Tokens als auf Sonnet 4.6.
| Modell | Input-Tokens (identischer Text) | Input-Kosten zum Standardpreis |
|---|---|---|
claude-sonnet-4-6 | 1.594 | $0.0048 |
claude-sonnet-5 | 2.245 | $0.0067 |
claude-opus-4-8 | 2.245 | $0.0112 |
Sonnet 5 tokenisiert denselben englischen Prompt als 2.245 Tokens, exakt den Wert, den auch Opus 4.8 meldet, und deutlich über den 1.594 von Sonnet 4.6. Sonnet 5 kam mit dem neueren Tokenizer, den die Opus-Reihe ab 4.7 übernommen hat.
Preis und Token-Count zusammengenommen ergeben ein klares Bild:
- Während der Einführungsphase gleicht der um 41 % niedrigere Tarif ($2 statt $3) den Token-Zuwachs aus. Derselbe uncachte Prompt kostet also etwa so viel wie auf 4.6, und warme Turns laufen dank des rabattierten Outputs günstiger.
- Ab dem 1. September stimmt der Tarif mit 4.6 überein, der Token-Count aber nicht. Derselbe englische Prompt kostet auf Sonnet 5 rund 41 % mehr als auf Sonnet 4.6 ($0.0067 gegenüber $0.0048 für dieses Prefix), weil identischer Text bei gleichem Preis pro Token schlicht als mehr Tokens gezählt wird.
Gegenüber Opus 4.8 gibt es diesen Haken nicht: Der Tokenizer ist derselbe (2.245 = 2.245), also ist Sonnet 5 sowohl zum Einführungstarif (2,5×) als auch zum Standardtarif (1,67×) klar günstiger.
Kalkuliere deshalb mit der September-Rechnung, nicht mit der vom Juli: Der Preis pro Token steigt am 1. September um das 1,5-Fache, und der höhere Token-Count ist heute schon eingepreist. Lies außerdem cache_creation_input_tokens / cache_read_input_tokens aus der Live-Response statt aus einem lokalen Tokenizer, der eventuell noch das alte Vokabular nutzt.
Sonnet 5 vs. Opus 4.8: der dauerhafte Vorteil
Diesen Vergleich ändert der Launch nachhaltig. Sonnet 5 und Opus 4.8 teilen sich einen Tokenizer, also sind bei jedem Prompt die Token-Counts identisch und der Kostenunterschied liegt allein am Tarif: 2,5× günstiger zum Einführungspreis, 1,67× günstiger zum Standardpreis – bei kalten Turns, warmen Turns, Input und Output gleichermaßen. Ein warmer, gecachter Turn kostet heute $0.0017 gegenüber $0.0043; selbst im September sind es etwa $0.0026 gegenüber $0.0043.
Bei einer Caching-Agent-Loop mit hohem Volumen, wo sich das Prefix in jedem Turn wiederholt, summiert sich diese Differenz. Die Entscheidung ist die übliche: Führe dein eigenes Eval durch, und wenn Sonnet 5 deine Qualitätsschwelle erreicht, spricht die Gateway-Rechnung dauerhaft dafür, nicht nur bis August. Falls nicht, liegt Opus 4.8 nur ein model-Feld entfernt, mit demselben Caching-Code.
Migrations-Checkliste
- ✅ Caching-Code lässt sich unverändert übernehmen.
cache_control-Marker, Anzahl der Breakpoints,ttl: "1h"und dieusage-Feldnamen sind alle identisch zur Opus-Reihe. - ✅ TTL-Entscheidungen bleiben gleich. 5m für Live-/Session-Workloads, 1h für stoßweise Last oder Agent-Betrieb mit Pausen.
- ✅ Rabatt-Ökonomie bleibt gleich. ≈90 % Read, ≈1,25× Write (5m), ≈2× Write (1h).
- ⚠️ Trage den 1. September im Budget ein. Der Einführungstarif endet am 31. August; Sonnet 5 geht auf $3 / $15. Modelliere den 1,5-fachen Sprung, bevor er kommt.
- ⚠️ Miss die Token-Counts neu (ab 4.6 oder früher). Gleicher Text, rund 41 % mehr Tokens auf Sonnet 5. Zum Standardpreis wird derselbe Prompt damit teurer als auf 4.6, nicht günstiger.
- ⚠️ Vertraue dem Live-
usage-Objekt. Lies*_input_tokensundcostaus der Response, nicht aus einer gecachten Schätzung der alten Generation.
Fazit
Sonnet 5 ist ein gutes Angebot mit Ablaufdatum. Gegenüber Opus 4.8 ist es dauerhaft 1,67–2,5× günstiger, und der Caching-Pfad lässt sich unverändert übernehmen. Damit ist es der naheliegendste erste Kandidat für jedes Opus-Workload, bei dem Qualität nicht kritisch ist. Gegenüber Sonnet 4.6 besteht der Vorteil nur aus dem Einführungsrabatt: Ab dem 1. September entspricht der Preis dem von 4.6, und durch den neuen Tokenizer kostet derselbe Prompt sogar mehr. Nimm den Rabatt mit, aber kalkuliere dein Budget mit den September-Zahlen und prüfe deine Token-Zahlen gegen das Live-usage-Objekt, bevor du der Finanzabteilung etwas versprichst.
Das komplette Caching-Playbook findest du in der vierteiligen Serie, beginnend mit How KV Cache & TTL Work und dem lauffähigen Python-Tutorial.
FAQ
Ist Sonnet 5 günstiger als Sonnet 4.6? Nur während des Einführungszeitraums. Bis zum 31. August 2026 kostet es $2 / $10 gegenüber $3 / $15 bei 4.6. Ab dem 1. September sind es $3 / $15, also derselbe Tarif. Und da derselbe Text auf Sonnet 5 rund 41 % mehr Tokens zählt, kostet derselbe Prompt zum Standardpreis mehr als auf 4.6.
Wann endet der Einführungspreis? Am 31. August 2026, laut Anthropics Ankündigung. Ab dem 1. September gilt der Tarif von $3 pro Million Input- und $15 pro Million Output-Tokens.
Wie viel günstiger ist Sonnet 5 als Opus 4.8? 2,5× zum Einführungstarif, 1,67× zum Standardtarif, jeweils bei Input und Output. Beide teilen sich einen Tokenizer, die Token-Zahlen stimmen also überein und der Unterschied liegt bei beiden Preisen rein am Tarif.
Muss ich meinen cache_control-Code ändern?
Nein. Marker-Syntax, Breakpoint-Limit und TTL-Optionen sind identisch mit der Opus-Linie. Ändere das model-Feld, sonst nichts. Warme Reads liegen bei ≈10 % des Input-Preises; der 1-Stunden-Write bei ≈2× ohne Cache, der 5-Minuten-Write bei ≈1,25×.
Ist Sonnet 5 ein direkter Ersatz für Opus 4.8? Was Caching, TTL und Kosten angeht, ist die Migration trivial, und es ist bei beiden Preisen günstiger. Für die Qualität fahr deine eigene Eval; wir veröffentlichen keine Capability-Benchmarks, die wir nicht selbst gefahren haben. Für Aussagen zur Modellqualität siehe Anthropics Model Card.
Verifizierung: Preis-, Caching-, TTL- und Token-Zahlen gemessen gegen https://synthorai.io/ am 2026-07-01 über den Anthropic-nativen /v1/messages-Pfad, Single Tenant. Preise pro Token sind aus den usage-Kosten einfacher Calls abgeleitet; die Kosten pro Turn sind ein Median aus kleiner Stichprobe mit einem gecachten Prefix von 2,2K Tokens und geben den aktuellen Einführungstarif wieder. Der Einführungspreis und das Ablaufdatum 31. August 2026 stammen aus Anthropics Sonnet-5-Ankündigung; die Rabatt-/Aufschlagsverhältnisse sind gegen die Anthropic Prompt Caching Docs gegengeprüft. Deine Zahlen variieren je nach Prompt, Region und Last.