Engineering-Blog

Echte Engineering-Probleme, auf die wir beim Bau eines LLM-API-Gateways gestoßen sind.

  • Claude Fable 5: Caching, Tokenizer & Kosten vs. Opus 4.6

    10. Juni 2026 · claude-fable-5 · prompt-cache · tokenizer · model-update

    Claude Fable 5 ist auf Synthorai verfügbar. Gemessenes Prompt-Caching, TTL, Tokenisierung und Kosten vs. Opus 4.6/4.8: gleicher Cache-Vertrag, neuer Tokenizer, ~2,9x die Rechnung.

  • Provider Drift: Wie Standard-Routing die LLM-Kosten in die Höhe treibt

    5. Juni 2026 · prompt-cache · llm-gateway · routing

    Beim Standard-Routing eines Multi-Provider-Gateways verteilen sich identische Anfragen auf verschiedene Upstreams mit getrennten Caches. Die Trefferquote bricht ein und Ihre Rechnung steigt.

  • Lügt Ihr LLM-Gateway über den Cache? Ein 5-Minuten-Audit

    2. Juni 2026 · llm-gateway · prompt-cache · observability

    Gateways können Cache-Treffer melden und trotzdem den vollen Preis berechnen. Ein Skript auditiert in fünf Minuten sowohl Auto-Caching (DeepSeek) als auch markerbasiertes Caching (Claude).

  • Claude Opus 4.8 auf Synthorai: Caching & TTL im Vergleich zu 4.7/4.6

    29. Mai 2026 · claude-opus-4-8 · prompt-cache · model-update

    Claude Opus 4.8 ist auf Synthorai live. Gemessenes Prompt-Caching- und TTL-Verhalten im Vergleich zu Opus 4.7/4.6 — was unverändert bleibt, plus die zu überprüfende Tokenizer-Änderung.

  • LLM-Prompt-Caching: Der komplette Leitfaden 2026

    26. Mai 2026 · prompt-cache · series-overview · llm-architecture

    Eine vierteilige Serie zum LLM-Prompt-Caching: KV-Cache-Architektur, Anbietervergleich, lauffähiges Python-Tutorial und eine Entscheidungsmatrix für das beste Modell je Anwendungsfall.

  • LLM-Prompt-Caching #4: Das beste Modell für Chat, RAG & Agenten

    25. Mai 2026 · llm-selection · agents · rag · chatbot

    Entscheidungsmatrix, die jede LLM-Workload — Chatbots, RAG-APIs, KI-Agenten — dem richtigen Modell und der richtigen Caching-Strategie zuordnet. Echte Preise 2026, Kostenberechnung pro Szenario.

  • LLM-Prompt-Caching #3: Praktisches Python-Tutorial

    24. Mai 2026 · prompt-cache · tutorial · python

    Gemessene Prompt-Cache-Einsparungen über Claude, GPT-5, Gemini 2.5, DeepSeek-v4 und Qwen3 via Synthorais OpenAI-kompatiblem Gateway. Echte usage.cost und TTFT.

  • LLM-Prompt-Caching #2: Claude, GPT, Gemini, DeepSeek im Vergleich

    23. Mai 2026 · prompt-cache · llm-providers · evaluation

    Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 und Qwen3 bieten Prompt-Caching in fünf verschiedenen Ausprägungen — gemessener Funktionsvergleich 2026.

  • LLM-Prompt-Caching #1: Wie KV-Cache & TTL funktionieren

    22. Mai 2026 · prompt-cache · transformer · llm-architecture

    Wie LLM-Prompt-Caching tatsächlich funktioniert: die Transformer-Attention-Mathematik hinter der K/V-Wiederverwendung, der Speicher-Rechen-Kompromiss, der die TTL prägt, und warum es Kosten und TTFT senkt.