Engineering-Blog
Echte Engineering-Probleme, auf die wir beim Bau eines LLM-API-Gateways gestoßen sind.
-
Claude Fable 5: Caching, Tokenizer & Kosten vs. Opus 4.6
Claude Fable 5 ist auf Synthorai verfügbar. Gemessenes Prompt-Caching, TTL, Tokenisierung und Kosten vs. Opus 4.6/4.8: gleicher Cache-Vertrag, neuer Tokenizer, ~2,9x die Rechnung.
-
Provider Drift: Wie Standard-Routing die LLM-Kosten in die Höhe treibt
Beim Standard-Routing eines Multi-Provider-Gateways verteilen sich identische Anfragen auf verschiedene Upstreams mit getrennten Caches. Die Trefferquote bricht ein und Ihre Rechnung steigt.
-
Lügt Ihr LLM-Gateway über den Cache? Ein 5-Minuten-Audit
Gateways können Cache-Treffer melden und trotzdem den vollen Preis berechnen. Ein Skript auditiert in fünf Minuten sowohl Auto-Caching (DeepSeek) als auch markerbasiertes Caching (Claude).
-
Claude Opus 4.8 auf Synthorai: Caching & TTL im Vergleich zu 4.7/4.6
Claude Opus 4.8 ist auf Synthorai live. Gemessenes Prompt-Caching- und TTL-Verhalten im Vergleich zu Opus 4.7/4.6 — was unverändert bleibt, plus die zu überprüfende Tokenizer-Änderung.
-
LLM-Prompt-Caching: Der komplette Leitfaden 2026
Eine vierteilige Serie zum LLM-Prompt-Caching: KV-Cache-Architektur, Anbietervergleich, lauffähiges Python-Tutorial und eine Entscheidungsmatrix für das beste Modell je Anwendungsfall.
-
LLM-Prompt-Caching #4: Das beste Modell für Chat, RAG & Agenten
Entscheidungsmatrix, die jede LLM-Workload — Chatbots, RAG-APIs, KI-Agenten — dem richtigen Modell und der richtigen Caching-Strategie zuordnet. Echte Preise 2026, Kostenberechnung pro Szenario.
-
LLM-Prompt-Caching #3: Praktisches Python-Tutorial
Gemessene Prompt-Cache-Einsparungen über Claude, GPT-5, Gemini 2.5, DeepSeek-v4 und Qwen3 via Synthorais OpenAI-kompatiblem Gateway. Echte usage.cost und TTFT.
-
LLM-Prompt-Caching #2: Claude, GPT, Gemini, DeepSeek im Vergleich
Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 und Qwen3 bieten Prompt-Caching in fünf verschiedenen Ausprägungen — gemessener Funktionsvergleich 2026.
-
LLM-Prompt-Caching #1: Wie KV-Cache & TTL funktionieren
Wie LLM-Prompt-Caching tatsächlich funktioniert: die Transformer-Attention-Mathematik hinter der K/V-Wiederverwendung, der Speicher-Rechen-Kompromiss, der die TTL prägt, und warum es Kosten und TTFT senkt.