Engineering-Blog

Echte Engineering-Probleme, auf die wir beim Bau eines LLM-API-Gateways gestoßen sind.

GLM 5.2 Reasoning Effort: Mit dieser Einstellung sinken die Kosten um den Faktor 20 (gemessen)

24. Juni 2026 · glm · coding · llm-gateway · cost · reasoning

Dieselbe Coding-Antwort: $0.0031 mit korrekt gesetztem Reasoning Effort statt $0.062 mit dem unbegrenzten Default von GLM 5.2. 20-mal günstiger, 30-mal schneller. So wählst du die passende Stufe für jede Aufgabe.

★ Empfohlen

Claude Fable 5 läuft nicht unter ZDR: 30 Tage Aufbewahrung sind Pflicht

12. Juni 2026 · claude-fable-5 · data-retention · compliance

ZDR-Organisationen erhalten bei claude-fable-5 einen 400-Fehler: Weder in der Claude API noch in Bedrock, Vertex oder Foundry gibt es ein Opt-out. Was das für HIPAA/COPPA bedeutet und wie sich das Routing anpassen lässt.

★ Empfohlen

LLM-Prompt-Caching: Der komplette Leitfaden 2026 (50–90 % weniger Input-Kosten)

26. Mai 2026 · prompt-cache · series-overview · llm-architecture

So funktioniert Prompt-Caching bei Claude, GPT, Gemini und DeepSeek: 50–90 % weniger Input-Kosten und 3–10× kürzere TTFT. Architektur, Provider-Vergleich und Python-Code.