Blog d'ingénierie
Les vrais problèmes d'ingénierie rencontrés en construisant une passerelle d'API LLM.
-
Claude Fable 5 : Cache, Tokenizer & Coût vs Opus 4.6
Claude Fable 5 est disponible sur Synthorai. Mesures du prompt caching, TTL, tokenisation et coût vs Opus 4.6/4.8 : même contrat de cache, nouveau tokenizer, ~2,9x la facture.
-
Dérive de fournisseur : comment le routage par défaut gonfle le coût des LLM
Avec le routage par défaut d'une passerelle multi-fournisseurs, des requêtes identiques se dispersent sur des upstreams aux caches distincts. Le taux de succès s'effondre et votre facture grimpe.
-
Votre passerelle LLM ment-elle sur le cache ? Un audit en 5 min
Les passerelles peuvent signaler des hits de cache tout en facturant le plein tarif. Un script audite en cinq minutes le cache automatique (DeepSeek) et à marqueurs (Claude).
-
Claude Opus 4.8 sur Synthorai : mise en cache et TTL face à 4.7/4.6
Claude Opus 4.8 est disponible sur Synthorai. Mesures de la mise en cache des prompts et du comportement TTL face à Opus 4.7/4.6 — ce qui reste valable, plus l'évolution du tokenizer à revérifier.
-
Mise en cache des prompts LLM : le guide complet 2026
Une série en quatre parties sur la mise en cache des prompts LLM : architecture du cache KV, comparaison des fournisseurs, tutoriel Python fonctionnel et matrice de décision du meilleur modèle par cas d'usage.
-
Mise en cache de prompts LLM #4 : le meilleur modèle pour le chat, le RAG et les agents
Matrice de décision associant chaque charge de travail LLM — chatbots, API RAG, agents IA — au bon modèle et à la bonne stratégie de cache. Tarifs réels 2026, calcul de coût par scénario.
-
Mise en cache de prompts LLM #3 : tutoriel Python fonctionnel
Économies de cache de prompt mesurées sur Claude, GPT-5, Gemini 2.5, DeepSeek-v4 et Qwen3 via la passerelle compatible OpenAI de Synthorai. usage.cost et TTFT réels.
-
Mise en cache des prompts LLM #2 : comparer Claude, GPT, Gemini, DeepSeek
Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 et Qwen3 exposent la mise en cache des prompts sous cinq formes différentes — comparaison de fonctionnalités mesurée en 2026.
-
Mise en cache des prompts LLM #1 : comment fonctionnent le cache KV et le TTL
Comment fonctionne réellement la mise en cache des prompts LLM : les maths de l'attention Transformer derrière la réutilisation des K/V, le compromis mémoire-calcul qui façonne le TTL, et pourquoi cela réduit le coût et le TTFT.