Blog de engenharia
Problemas reais de engenharia que encontramos ao construir um gateway de API LLM.
-
Claude Fable 5: Cache, Tokenizador e Custo vs Opus 4.6
Claude Fable 5 está disponível no Synthorai. Medimos cache de prompt, TTL, tokenização e custo vs Opus 4.6/4.8: mesmo contrato de cache, novo tokenizador, ~2,9x a fatura.
-
Provider Drift: Como o Roteamento Padrão Infla o Custo de LLM
No roteamento padrão de um gateway multiprovedor, requisições idênticas se espalham por upstreams com caches separados. A taxa de acerto despenca e sua conta sobe.
-
Seu gateway de LLM mente sobre o cache? Uma auditoria em 5 min
Gateways podem relatar acertos de cache enquanto cobram o preço cheio. Um script audita em cinco minutos tanto o cache automático (DeepSeek) quanto o baseado em marcadores (Claude).
-
Claude Opus 4.8 no Synthorai: cache e TTL frente a 4.7/4.6
Claude Opus 4.8 está disponível no Synthorai. Comportamento medido do cache de prompts e do TTL frente ao Opus 4.7/4.6 — o que se mantém, além da mudança do tokenizador a reverificar.
-
Cache de prompts em LLM: o guia completo de 2026
Uma série em quatro partes sobre cache de prompts em LLM: arquitetura do cache KV, comparação de provedores, tutorial funcional em Python e uma matriz de decisão do melhor modelo por caso de uso.
-
Cache de prompts LLM #4: o melhor modelo para chat, RAG e agentes
Matriz de decisão que associa cada carga de trabalho LLM — chatbots, APIs de RAG, agentes de IA — ao modelo e à estratégia de cache certos. Preços reais de 2026, cálculo de custo por cenário.
-
Cache de prompts LLM #3: tutorial prático em Python
Economias de cache de prompt medidas em Claude, GPT-5, Gemini 2.5, DeepSeek-v4 e Qwen3 via gateway compatível com OpenAI da Synthorai. usage.cost e TTFT reais.
-
Cache de prompts em LLM #2: comparar Claude, GPT, Gemini, DeepSeek
Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 e Qwen3 expõem o cache de prompts de cinco formas diferentes — comparação de recursos medida em 2026.
-
Cache de prompts em LLM #1: como funcionam o cache KV e o TTL
Como o cache de prompts em LLM realmente funciona: a matemática da atenção do Transformer por trás da reutilização de K/V, o equilíbrio memória-computação que molda o TTL e por que ele reduz custo e TTFT.