LLM-Prompt-Caching #2: Claude, GPT, Gemini, DeepSeek im Vergleich

Inhalt
  1. 1. Eine Taxonomie der LLM-Cache-Typen
  2. 1.1 Steuerung: Explizit vs. Implizit vs. Hybrid
  3. 1.2 Persistenz: Im Speicher vs. Disk-gestützt
  4. 1.3 Granularität: Übereinstimmungsauflösung
  5. 1.4 Objektmodell: Marker pro Aufruf vs. benannte Cache-Objekte
  6. 2. Detailanalyse pro Anbieter
  7. 2.1 Anthropic Claude — Explizit, im Speicher, Granularität 1.024 Tokens
  8. 2.2 OpenAI GPT-5.x — Automatisch, im Speicher, Granularität 1.024 Tokens
  9. 2.3 Google Gemini — Hybrid, im Speicher, benannte Cache-Objekte
  10. 2.4 DeepSeek-v4 — Automatisch, Disk-gestützt, Granularität 64 Tokens
  11. 2.5 Alibaba Qwen3 — Hybrid, im Speicher, benannte Cache-Objekte + implizit
  12. 3. Direkter Vergleich
  13. 3.1 Rabattstruktur (Anbieterdokumente, 2026-05)
  14. 3.2 TTL, Granularität & Persistenz
  15. 3.3 Gemessene Latenz bei einem 7K-Token-Präfix (2026-05-25)
  16. 4. Das 5-Dimensionen-Bewertungsframework
  17. 4.1 Effektive Kosten pro Million Tokens (trefferquotengewichtet)
  18. 4.2 Vorhersagbarkeit der Trefferquote
  19. 4.3 Eignung TTL ↔ Traffic-Kadenz
  20. 4.4 Latenz bei Cache-Miss
  21. 4.5 API-Ergonomie & Migrationskosten
  22. 5. Schnellurteile nach Arbeitslastform
  23. 6. Migrationsüberlegungen
  24. 7. Was sich im Laufe der Zeit ändert
  25. FAQ

TL;DR — Fünf große LLM-Anbieter bieten Prompt-Caching in fünf sehr unterschiedlichen Ausprägungen — explizite Marker (Claude), vollautomatisch (GPT-5, DeepSeek-v4), hybrid implizit+explizit (Gemini, Qwen) oder architektonische Disk-Unterstützung (DeepSeeks MLA). Dieser Artikel bietet einen Funktion-für-Funktion-Vergleich und ein 5-Dimensionen-Bewertungsframework, um sie für Ihre Arbeitslast zu bewerten — Kosten, Vorhersagbarkeit der Trefferquote, Latenz, TTL-Eignung und API-Ergonomie. Den architektonischen Hintergrund finden Sie in Teil 1: Caching-Prinzipien; gemessene Zahlen und funktionierendes Python in Teil 3: Tutorial.

Serie: Teil 2 von 4 · Zuvor: Teil 1 — Caching-Prinzipien · Als Nächstes: Teil 3 — Tutorial mit funktionierendem Code · Teil 4 — Bestes LLM nach Anwendungsfall


1. Eine Taxonomie der LLM-Cache-Typen

Bevor wir Anbieter für Anbieter durchgehen, lohnt es sich, vier Designachsen festzulegen:

1.1 Steuerung: Explizit vs. Implizit vs. Hybrid

  • Explizit — der Entwickler markiert, welche Teile des Prompts gecacht werden sollen (Anthropic Claude cache_control). Maximale Kontrolle; erfordert Code-Änderungen.
  • Implizit / automatisch — der Anbieter erkennt übereinstimmende Präfixe automatisch (OpenAI GPT-5, DeepSeek-v4). Keine Code-Änderungen; keine Möglichkeit, einen Treffer zu erzwingen.
  • Hybrid — beide Modi verfügbar; Auswahl pro Aufruf (Gemini, Qwen).

1.2 Persistenz: Im Speicher vs. Disk-gestützt

Bestimmt durch die KV-Cache-Architektur des Anbieters, nicht durch die API-Oberfläche.

  • Im Speicher (HBM) — Caches liegen im GPU-Speicher, kurzlebig (Minuten), mit großen Mindestblöcken (1.024 Tokens). Standard bei den meisten Anbietern.
  • Disk-gestützt — Caches werden auf SSD/NVMe persistiert mit deutlich längeren TTLs und feinerer Granularität. DeepSeek liefert dies in großem Maßstab, ermöglicht durch ihre Multi-head Latent Attention (MLA)-Kompression, die den KV-Cache um etwa das 4-Fache verkleinert (DeepSeek-AI, 2024).

1.3 Granularität: Übereinstimmungsauflösung

Wie klein darf ein Präfix sein, um einen Rabatt zu erhalten?

  • 64 Tokens — DeepSeek (branchenfeinste)
  • 128 Tokens — OpenAI (Übereinstimmungsinkrement)
  • 1.024 Tokens — kleinster cachebarer Block für Claude, OpenAI, Gemini, Qwen

Feinere Granularität bedeutet, dass auch eine teilweise Präfix-Überlappung zählt — viel nachsichtiger gegenüber kleinen Prompt-Variationen.

1.4 Objektmodell: Marker pro Aufruf vs. benannte Cache-Objekte

  • Marker pro Aufruf — jede Anfrage enthält inline den zu cachenden Inhalt, den der Anbieter hasht (Claude, OpenAI, DeepSeek, Qwen implizit).
  • Benannte Cache-Objekte — der Entwickler erstellt einen Cache über einen separaten API-Aufruf, erhält eine cache_id und referenziert sie später (Gemini explizit, Qwen explizit). Tauscht zusätzlichen Aufwand gegen explizite Lebenszyklus-Kontrolle.

Diese vier Achsen wirken zusammen. Das Angebot eines Anbieters wird durch seine Position auf jeder beschrieben. Der nächste Abschnitt geht jeden Anbieter einzeln durch.


2. Detailanalyse pro Anbieter

2.1 Anthropic Claude — Explizit, im Speicher, Granularität 1.024 Tokens

Führende Modelle (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

Cache-API. Markieren Sie bis zu vier cache_control-Breakpoints irgendwo in Ihrem System- oder Nachrichten-Array. Cache-Treffer kosten ~10 % der Basis-Eingaberate; Cache-Schreibvorgänge kosten 125 % (ein Aufschlag von 25 %). Die Standard-TTL beträgt 5 Minuten gleitend (jeder Treffer setzt sie zurück), mit einer 1-Stunden-Option.

Preisstruktur. Anthropic veröffentlicht Raten pro Million Tokens pro Modell auf ihrer Preisseite; der Cache-Rabatt ist über die gesamte Familie hinweg konsistent. Für einen System-Prompt von 8.000 Tokens bei 100.000 Aufrufen/Tag auf claude-sonnet-4-5 sinken die Kosten pro Aufruf um etwa das 8- bis 10-Fache, sobald das Präfix warm ist — Break-even nach einem einzigen Treffer.

TTL-Verhalten. Standardmäßig gleitend 5 Minuten — jeder Treffer schiebt den Ablauf um weitere 5 Minuten nach hinten. Die 1-Stunden-TTL verdoppelt die Schreibkosten, ist aber für jede Arbeitslast mit Leerlauflücken > 5 Min. unerlässlich.

Granularität. Minimum 1.024 Tokens. Der Hash bezieht sich auf die exakte Token-Sequenz; eine Änderung eines einzigen Zeichens am Anfang invalidiert das gesamte Präfix.

API-Ergonomie. Am höchsten. Das Multi-Breakpoint-Design erlaubt es, „ändert sich nie” + „ändert sich selten” + „ändert sich pro Aufgabe” unabhängig zu cachen — best-in-class für Agent- und RAG-Arbeitslasten, bei denen sich Prompt-Abschnitte in unterschiedlichen Kadenzen ändern.

Fallstricke.

  • cache_control nicht hinzuzufügen bedeutet gar kein Caching — anders als bei GPT oder DeepSeek gibt es keinen impliziten Rückfall.
  • Das Cache-Hashing ist reihenfolgeempfindlich, sogar innerhalb von Tool-/Funktions-Arrays — sortieren Sie sie deterministisch.
  • Der 5-Min.-Standard macht Claude zu einer schlechten Wahl für sporadische Batch-Jobs ohne expliziten Keep-Alive.
  • Wenn Sie Claude über ein Gateway aufrufen, prüfen Sie, ob das Gateway Anthropics nativen /v1/messages-Pfad mit cache_control-Markern unterstützt (der OpenAI-kompatible /chat/completions-Pfad propagiert die Marker in der Regel nicht — verwenden Sie das auf die Basis-URL des Gateways gerichtete Anthropic-SDK).

Beste Eignung. Long-Context-Agenten, Multi-Turn-Chat mit stabilen System-Prompts, strukturiertes RAG mit geschichtetem Caching.


2.2 OpenAI GPT-5.x — Automatisch, im Speicher, Granularität 1.024 Tokens

Führende Modelle (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Codex-Varianten für Code: gpt-5.2-codex, gpt-5.3-codex.

Cache-API. Nichts zu tun — automatisch bei jeder Anfrage ≥1.024 Tokens. Cache-Treffer werden mit 50 % der Eingaberate berechnet; kein Schreibaufschlag. Übereinstimmungsinkrement: 128 Tokens.

Preisstruktur. OpenAI veröffentlicht Raten pro Million Tokens auf ihrer Preisseite. Gecachte Eingabe ist 50 % günstiger; die Ausgabe bleibt unverändert.

Gemessen (2026-05-25, System-Prompt von ~6.900 Tokens):

ModellMiss-GesamtkostenHit-GesamtkostenHit-Cache-QuoteHit-Stream-TTFT
gpt-5.4-nano$0.00131$0.00074 (−44%)5,888 / 6,887 (85%)1.00 s
gpt-5.4-mini$0.00267$0.00257*6,400 / 6,887 (93%)0.73 s

* Die Completion des Hit-Durchlaufs von gpt-5.4-mini war deutlich kürzer als die des Miss-Durchlaufs; die Kostendifferenz vermischt hier den Cache-Rabatt mit der Variation der Completion-Länge. Der Latenzabfall um das 5-Fache (3,63 → 0,73 s) ist das sauberere Signal.

TTL-Verhalten. Genauer Wert undokumentiert; Felderfahrungen deuten auf 5 bis 60 Minuten je nach Last und Präfix-Popularität hin. Beliebte geteilte Präfixe leben länger (LRU bevorzugt sie).

API-Ergonomie. Trivial — bestehender Code funktioniert weiter. Protokollieren Sie prompt_tokens_details.cached_tokens, um die Trefferquote zu messen.

Fallstricke.

  • Keine Möglichkeit, einen Treffer zu erzwingen. Wenn Ihr Traffic einzigartige Präfixe erzeugt, erhalten Sie nichts.
  • Der 50-%-Rabatt ist flacher als die 90/75 % von Claude/DeepSeek (entspricht Geminis Impliziter, ~25 %).
  • Streaming meldet Cache-Treffer manchmal nur im letzten Chunk — instrumentieren Sie sorgfältig und übergeben Sie stream_options={"include_usage": True}.

Beste Eignung. Bestehende GPT-nutzende Codebasen, bei denen die Nachrüstkosten die marginalen Einsparungen überwiegen. Stoßweiser Traffic, bei dem die Präfix-Wiederholung natürlich hoch ist.


2.3 Google Gemini — Hybrid, im Speicher, benannte Cache-Objekte

Führende Modelle (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

Cache-API. Zwei Modi:

  • Implizit: automatisch, wie GPT. Gecachte Tokens werden mit ~25 % der Eingaberate berechnet. Keine Speichergebühr, keine Einrichtung.
  • Explizit: Erstellen Sie ein cachedContent-Objekt über einen separaten API-Aufruf. Referenzieren Sie es per Name in nachfolgenden Anfragen. Gecachte Tokens werden mit ~10 % (niedriger) berechnet, aber Sie zahlen eine stündliche Speichergebühr pro Million Tokens.

Preisstruktur. Long Context ist Geminis Stärke; die Preisgestaltung skaliert mit der Kontextlängen-Kategorie (Schwellenwerte unter 200K vs. über 200K bei höheren Raten pro Token).

Gemessen (2026-05-25):

ModellMiss-KostenHit-Kosten (Stream)Hit-Cache-Quote
gemini-2.5-flash$0.00198$0.00024 (−88%)7,140 / 7,322 (97%)
gemini-2.5-pro$0.00824$0.00205 (−75%)6,120 / 7,328 (84%)

TTL-Verhalten. Implizit: Minuten, nicht offengelegt. Explizit: vom Entwickler festgelegt, standardmäßig 1 Stunde, bis zu 24 Stunden.

API-Ergonomie. Der explizite Cache erfordert einen 2-stufigen Ablauf (erstellen → referenzieren). Der cachedContent-Lebenszyklus (erstellen, TTL aktualisieren, löschen) liegt in Ihrer Verantwortung.

Fallstricke.

  • Die Speichergebühr ist der Killer für explizite Caches mit geringem Volumen. Berechnen Sie immer den Break-even für Ihre Aufruffrequenz.
  • Die Trefferquote des impliziten Caches ist variabel; verlassen Sie sich für die Kostenmodellierung nicht darauf.
  • Cache-Objekte sind regionsgebunden — Multi-Region-Apps benötigen doppelte Caches.
  • gemini-*-pro ist ein Reasoning-Modell: Bei kleinem max_tokens wird die Completion durch verstecktes Denken verbraucht, und Sie sehen completion_tokens=0. Erhöhen Sie max_tokens auf ≥256 in jedem benutzerseitigen Pfad.

Beste Eignung. Ein großes Dokument (>20K Tokens), das 10+ Mal/Stunde abgefragt wird. Video-Q&A. Multimodales RAG über Unternehmens-PDFs.


2.4 DeepSeek-v4 — Automatisch, Disk-gestützt, Granularität 64 Tokens

Führende Modelle (2026-05): deepseek-v4-flash (allgemein), deepseek-v4-flash (deckt in dieser Generation auch Coder-Arbeitslasten ab).

Cache-API. Automatisch, wie GPT — aber angetrieben durch MLA-Kompression, die den Cache kompakt genug macht, um auf Disk zu persistieren. Cache-Treffer werden mit ~25 % der Eingaberate berechnet; kein Schreibaufschlag. Mindestübereinstimmung: 64 Tokens.

Preisstruktur. In Yuan ausgewiesene Raten auf DeepSeeks Preisseite. Die Trefferquote übersetzt sich grob in eine Reduktion der Eingabekosten um 75 %.

Gemessen (2026-05-25):

ModellMiss-KostenHit-KostenHit-Cache-QuoteHit-TTFT
deepseek-v4-flash$0.00091$0.00023 (−74%)6,784 / 7,101 (96%)2.93 s

TTL-Verhalten. Stunden, manchmal länger für stark frequentierte Präfixe. Disk-gestützter Speicher bedeutet, dass Caches dem GPU-Speicherdruck standhalten, der In-Memory-Caches bei anderen Anbietern verdrängen würde.

Granularität. Das Minimum von 64 Tokens ist das kleinste der Branche. Kleine Prompt-Bearbeitungen lassen den Großteil des Präfixes übereinstimmend, statt es wie bei 1.024-Token-Anbietern vollständig zu invalidieren.

API-Ergonomie. API im OpenAI-Format; tauschen Sie die Basis-URL aus. Standardfeld prompt_tokens_details.cached_tokens.

Fallstricke.

  • Nur Modelle der DeepSeek-Familie. Keine Möglichkeit, diesen Cache mit anderen Modellfamilien zu nutzen.
  • Die Qualität im Englischen ist exzellent, bleibt aber bei den schwierigsten Reasoning-Benchmarks hinter Claude/GPT-5 zurück.

Beste Eignung. Chinesischsprachige Arbeitslasten (Kosten). Arbeitslasten mit Hochfrequenz-Präfixen, bei denen Granularität wichtig ist (RAG mit instabiler Abrufreihenfolge). Kostensensible Batch-Jobs.


2.5 Alibaba Qwen3 — Hybrid, im Speicher, benannte Cache-Objekte + implizit

Führende Modelle (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Vision-Varianten: qwen3-vl-plus, qwen3-vl-flash.

Cache-API. Zwei Modi:

  • Implizit: immer aktiv, wie GPT. Der gecachte Anteil wird mit ~20 % der Eingaberate berechnet.
  • Explizit: Erstellen Sie einen Cache per API mit benutzerdefiniertem TTL. Treffer bei ~10 %, Schreibvorgänge bei 125 %.

Gemessen (2026-05-25):

ModellMiss-KostenHit-KostenHit-Cache-QuoteHit-TTFTAnmerkungen
qwen3-max$0.00553$0.005497,040 / 7,234 (97%)1.53 sCache-Treffer gemeldet, das Kostenfeld des Gateways spiegelte an diesem Datum den Rabatt nicht wider (in der Produktion verifizieren)

TTL-Verhalten. Standardmäßig 5 Minuten, konfigurierbar pro Cache-Objekt. Gleitendes Fenster für explizit; kurze feste TTL für implizit.

API-Ergonomie. Implizit ist im GPT-Format (kein Aufwand). Explizit ist ein 2-stufiger Ablauf mit Cache-Lebenszyklus.

Fallstricke.

  • Derzeit unterstützen nur qwen3-max und qwen3.5-plus explizites Caching.
  • Multi-Region-Verfügbarkeit (Singapur, USA) wird ausgerollt — bestätigen Sie die Region, bevor Sie sich für Nicht-China-Daten darauf verlassen.
  • Dokumentationslücken im Vergleich zu Anthropic/OpenAI — empirisches Testen empfohlen.

Beste Eignung. Chinesische Unternehmens-Arbeitslasten, die enge Cache-Kontrolle benötigen. Kunden, die bereits in der Alibaba Cloud sind.



3. Direkter Vergleich

3.1 Rabattstruktur (Anbieterdokumente, 2026-05)

AnbieterCache-SchreibaufschlagGecachte EingaberateEffektiver Rabatt
Anthropic Claude+25%10% der Basis~90% Rabatt
OpenAI GPT-5keiner50% der Basis50% Rabatt
Google Gemini (implizit)keiner~25% der Basis~75% Rabatt
Google Gemini (explizit)keiner, aber stündliche Speichergebühr~10% der Basis~90% Rabatt bei Amortisation
DeepSeek-v4keiner~25% der Basis~75% Rabatt
Alibaba Qwen3 (implizit)keiner~20% der Basis~80% Rabatt
Alibaba Qwen3 (explizit)+25%~10% der Basis~90% Rabatt

3.2 TTL, Granularität & Persistenz

AnbieterStandard-TTLMax-TTLPersistenzMin. Übereinstimmungseinheit
Claude5 Min. gleitend1 StundeIm Speicher (HBM)1.024 Tok
GPT-5~5 Min.~60 Min.Im Speicher (HBM)1.024 Tok / 128-Tok-Inkrement
Gemini (implizit)Minutennicht offengelegtIm Speicher1.024 Tok
Gemini (explizit)1 Stunde24 StundenIm Speicher1.024 Tok
DeepSeek-v4StundenStunden+Disk (SSD)64 Tok
Qwen35 Min.konfigurierbarIm Speicher~1.024 Tok

3.3 Gemessene Latenz bei einem 7K-Token-Präfix (2026-05-25)

Anbieter / ModellMiss-GesamtHit-TTFT (Stream)Latenzgewinn
claude-haiku-4-5~3.0 s1.31 s~2×
claude-sonnet-4-5~2.0 s1.76 s~1.2×
claude-opus-4-5~2.2 s2.08 s~1.05×
gpt-5.4-mini~3.6 s0.73 s~5×
gpt-5.4-nano~2.2 s1.00 s~2×
gemini-2.5-flash~2.5 s~1.4 s~1.8×
gemini-2.5-pro~3.0 s~1.8 s~1.7×
deepseek-v4-flash~4.0 s2.93 s~1.4×
qwen3-max~4.8 s1.53 s~3×

† Die Claude-Zeilen werden mit cache_control-Markern über den Anthropic-nativen /v1/messages-Endpoint gemessen (siehe Teil 3 §2). Claudes größter Gewinn liegt bei den Kosten (~88–89 % Rabatt auf die Eingabe — siehe Teil 3 §2 für die vollständige Kostentabelle); die TTFT-Verbesserung skaliert laut Anthropics veröffentlichten Zahlen für Prompts von 100K+ Tokens dramatisch nach oben.

Einzelner sequenzieller Lauf, ohne gleichzeitige Last. Ihre Zahlen verschieben sich je nach Region, Tageszeit und konkurrierender Mandantenlast.


4. Das 5-Dimensionen-Bewertungsframework

Schlagzeilen wie „Claude spart 90 %” sind interessant, sagen Ihnen aber selten, was Sie wählen sollen. Bewerten Sie jeden Anbieter anhand dieser fünf Dimensionen für Ihre Arbeitslast und gewichten Sie sie dann nach dem, was Ihnen wichtig ist.

4.1 Effektive Kosten pro Million Tokens (trefferquotengewichtet)

Vergleichen Sie nicht die Basispreise — vergleichen Sie die erwarteten Kosten bei Ihrer realen Trefferquote:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Durchgerechnetes Beispiel für 70 % Präfix-Wiederholung (typischer Chatbot):

  • Claude: ~90 % Rabatt × 0,7 Treffer + 25 % Schreiben × 0,3 → effektiv ≈ Basis × 0,45
  • GPT-5: ~50 % × 0,7 + 0 → effektiv ≈ Basis × 0,65
  • Gemini implizit: ~75 % × 0,7 + 0 → effektiv ≈ Basis × 0,48
  • DeepSeek-v4: ~75 % × 0,7 + 0 → effektiv ≈ Basis × 0,48

Multiplizieren Sie mit der tatsächlichen Basisrate jedes Anbieters (je nach Anbieter unterschiedlich), um den vergleichbaren Dollar-Betrag zu erhalten. Score: Berechnen Sie effective_cost für Ihre Arbeitslast; niedriger ist besser.

4.2 Vorhersagbarkeit der Trefferquote

  • Explizite Cacher (Claude, Qwen explizit, Gemini explizit) — hohe Vorhersagbarkeit. Sie haben es markiert, es trifft (innerhalb der TTL).
  • Automatische Cacher (GPT-5, DeepSeek-v4, Gemini implizit, Qwen implizit) — hängt von der Präfix-Ähnlichkeit und der Anbieterlast ab (LRU-Verdrängung).

Für SLAs, die an Kosten gebunden sind, bevorzugen Sie explizit. Für Best-Effort-Optimierung ist automatisch in Ordnung.

4.3 Eignung TTL ↔ Traffic-Kadenz

Traffic-MusterWas Sie brauchen
Kontinuierlich (Sekunden zwischen Aufrufen)Der Standard jedes Anbieters funktioniert
Sitzungsgebunden (Minuten)TTL von 5–60 Min. (Claude, GPT-5, Qwen)
Stoßweise (Stunden zwischen den Stößen)TTL von 1 Stunde+ (Claude 1h, Gemini explizit, DeepSeek-v4)
Sporadisch (Abfragen pro Tag)TTL von 24 Stunden (Gemini explizit) oder Kaltschreibvorgänge akzeptieren

4.4 Latenz bei Cache-Miss

Ein bei Treffern schneller, aber bei Misses langsamer Anbieter bleibt problematisch, wenn Ihre Trefferquote nicht hoch ist. Vergleichen Sie beide Zahlen aus §3.3 und gewichten Sie nach der erwarteten Trefferquote.

4.5 API-Ergonomie & Migrationskosten

  • Geringste Migration: GPT-5 ↔ DeepSeek-v4 (beide im OpenAI-Format, beide mit Auto-Cache).
  • Mittel: GPT-5 → Gemini implizit (anderes SDK, kein Cache-Code umzuschreiben).
  • Hoch: GPT-5 → Claude (muss cache_control hinzufügen, Prompt-Schichten umstrukturieren).
  • Höchste: jeder Wechsel von einem zu mehreren Anbietern ohne Gateway (mehrere Cache-APIs).

5. Schnellurteile nach Arbeitslastform

ArbeitslastAuswahlWarum
Englischer Chat, globale Nutzerclaude-haiku-4-5 oder gpt-5.4-nanoTiefer Cache-Rabatt + kleines schnelles Modell
Chinesischer Chat, Festlanddeepseek-v4-flash oder qwen3.5-flashCache im Stundenbereich + niedrige Kosten bei CN-Sprache
Englisches RAG (hohe Qualität)claude-sonnet-4-5 + Multi-BreakpointGeschichtete Prompt-Struktur cacht effizient
Chinesisches RAG (kostensensibel)deepseek-v4-flash64-Token-Granularität toleriert Umsortierung des Abrufs
Q&A über langes Dokument (sporadisch)gemini-2.5-pro explizit24-Stunden-TTL, dafür ausgelegt
Bestehende GPT-Codebasis, keine Umschreibunggpt-5.4-mini (Status quo)~50 % Einsparungen kostenlos
Komplexe Agenten (15+ Schritte)claude-sonnet-4-5 + 4-BP cache_control85 %+ Trefferquote bei Agent-Traffic
Multi-Anbieter-PortabilitätGateway, beliebiges ModellEin SDK, ein Auth-Header

6. Migrationsüberlegungen

Wenn Ihre Bewertung einen Wechsel nahelegt, drei Dinge zum Einplanen:

Datenbewegung. Gecachte Präfixe lassen sich nicht zwischen Anbietern übertragen — jeder Wechsel ist ein Kaltstart. Planen Sie mehrere Stunden mit über dem Normalwert liegenden Kosten während der Aufwärmphase ein.

Prompt-Neuarchitektur. Anthropics Multi-Breakpoint-Design fördert eine geschichtete Prompt-Struktur, die für jeden Anbieter tatsächlich besser ist — einmaliges Refactoring kommt auch Nicht-Claude-Pfaden zugute.

Absicherung über ein Gateway. Wenn Sie unsicher sind, routen Sie über ein Token Gateway. Sie behalten die Optionalität, ohne sich auf einen einzigen Anbieter festzulegen, zum Preis eines zusätzlichen Hops und (je nach Gateway) des potenziellen Verlusts des Zugriffs auf anbieterspezifische Cache-Steuerungen. Siehe Teil 3 §9 dazu, was das Synthorai-Gateway tatsächlich tut vs. Behauptungen, denen Sie skeptisch begegnen sollten.


7. Was sich im Laufe der Zeit ändert

Eine Anmerkung zur Beständigkeit dieser Vergleiche: die Zahlen in diesem Artikel werden sich verschieben. Caching ist zu einer preislich wettbewerbsfähigen Funktion geworden, und Anbieter aktualisieren ihre Angebote alle paar Monate. Zwei Dinge im Blick zu behalten:

  • TTL-Verlängerungen. Anthropics 1-Stunden-Option ist GA; Gemini könnte sich auf mehrere Tage erstrecken. Erwarten Sie, dass die TTL-Anspannung nachlässt.
  • Granularität. OpenAI und Anthropic werden ihr Minimum von 1.024 Tokens wahrscheinlich irgendwann senken; DeepSeeks 64-Token-Latte hat die neue Erwartung gesetzt.

Wenn die Rabatte konvergieren, wird das Unterscheidungsmerkmal API-Ergonomie und Latenz — nicht die plakativen Einsparungen.


Demnächst: Teil 3 — Prompt-Caching-Tutorial: Funktionierendes Python nimmt das obige architektonische Bild und verwandelt es in lauffähigen Code mit der Latenztabelle aus §3.3, reproduziert als Benchmark, den Sie selbst ausführen können.


FAQ

Welcher LLM-Anbieter hat alles in allem das günstigste Prompt-Caching? Bei gleicher Trefferquote (~75 %) sind deepseek-v4-flash für chinesische Arbeitslasten und gemini-2.5-flash implizit für Englisch die günstigsten in Bezug auf effektive Kosten pro Million in unseren Messungen von 2026-05. claude-sonnet-4-5 hat den tiefsten Rabatt pro Einzelaufruf (~90 %), aber einen höheren Basispreis — er gewinnt, wenn die Trefferquote >85 % beträgt. Setzen Sie Ihre eigene Trefferquote in die Formel aus §4.1 ein.

Warum kostet Gemini bei Arbeitslasten mit geringem Volumen mehr? Die stündliche Speichergebühr für explizite Caches frisst den Rabatt auf, es sei denn, Sie fragen den Cache häufig ab. Verwenden Sie für Arbeitslasten mit geringem Volumen Geminis implizites Caching (keine Speichergebühr, ~25 % Rabatt).

Kann ich Claudes cache_control mit OpenAI verwenden? Nicht direkt — es sind separate Cache-Implementierungen. Auf dem OpenAI-kompatiblen /chat/completions-Endpoint ist das Feld gegenüber Nicht-Anthropic-Modellen in der Regel wirkungslos (diese cachen ohnehin automatisch). Verwenden Sie für Claude speziell den Anthropic-nativen /v1/messages-Endpoint mit den Markern.

Ist DeepSeeks MLA-Architektur proprietär? Das Paper (DeepSeek-AI 2024) ist öffentlich. Andere Anbieter könnten KV-Kompression im MLA-Stil übernehmen, aber das erfordert ein Neutraining des Basismodells — kein Laufzeitwechsel. Stand 2026-05 bleibt DeepSeek der einzige große Anbieter, der dies in Produktion liefert.

Was ist mit selbst gehosteten Open-Source-Modellen? vLLM, SGLang und andere Inferenz-Engines unterstützen Präfix-Caching nativ (das PagedAttention-Paper ist die Grundlage). Wenn Sie auf H100/H200 selbst hosten, können Sie Disk-gestütztes Caching mit LMCache oder ähnlichem implementieren. Die Preisanalyse hier gilt nur für verwaltete Dienste — die Ökonomie des Selbsthostings ist völlig anders.

Warum keine Mistral-, Cohere- oder Llama-API-Anbieter in diesem Vergleich? Ihre Caching-Angebote sind stand 2026-05 weniger ausgereift. Mistrals Caching ist im Early Access; Cohere bietet kein explizites Caching; Llama-API-Anbieter (Groq, Together, Replicate) variieren stark. Erneut betrachten, wenn sich ihre Funktionsumfänge stabilisieren.


Quellen: Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). Gemessene Zahlen von https://synthorai.io/v1 am 2026-05-25.

← Zurück zum Blog