Blog de engenharia

Problemas reais de engenharia que encontramos ao construir um gateway de API LLM.

  • Claude Fable 5: Cache, Tokenizador e Custo vs Opus 4.6

    10 de junho de 2026 · claude-fable-5 · prompt-cache · tokenizer · model-update

    Claude Fable 5 está disponível no Synthorai. Medimos cache de prompt, TTL, tokenização e custo vs Opus 4.6/4.8: mesmo contrato de cache, novo tokenizador, ~2,9x a fatura.

  • Provider Drift: Como o Roteamento Padrão Infla o Custo de LLM

    5 de junho de 2026 · prompt-cache · llm-gateway · routing

    No roteamento padrão de um gateway multiprovedor, requisições idênticas se espalham por upstreams com caches separados. A taxa de acerto despenca e sua conta sobe.

  • Seu gateway de LLM mente sobre o cache? Uma auditoria em 5 min

    2 de junho de 2026 · llm-gateway · prompt-cache · observability

    Gateways podem relatar acertos de cache enquanto cobram o preço cheio. Um script audita em cinco minutos tanto o cache automático (DeepSeek) quanto o baseado em marcadores (Claude).

  • Claude Opus 4.8 no Synthorai: cache e TTL frente a 4.7/4.6

    29 de maio de 2026 · claude-opus-4-8 · prompt-cache · model-update

    Claude Opus 4.8 está disponível no Synthorai. Comportamento medido do cache de prompts e do TTL frente ao Opus 4.7/4.6 — o que se mantém, além da mudança do tokenizador a reverificar.

  • Cache de prompts em LLM: o guia completo de 2026

    26 de maio de 2026 · prompt-cache · series-overview · llm-architecture

    Uma série em quatro partes sobre cache de prompts em LLM: arquitetura do cache KV, comparação de provedores, tutorial funcional em Python e uma matriz de decisão do melhor modelo por caso de uso.

  • Cache de prompts LLM #4: o melhor modelo para chat, RAG e agentes

    25 de maio de 2026 · llm-selection · agents · rag · chatbot

    Matriz de decisão que associa cada carga de trabalho LLM — chatbots, APIs de RAG, agentes de IA — ao modelo e à estratégia de cache certos. Preços reais de 2026, cálculo de custo por cenário.

  • Cache de prompts LLM #3: tutorial prático em Python

    24 de maio de 2026 · prompt-cache · tutorial · python

    Economias de cache de prompt medidas em Claude, GPT-5, Gemini 2.5, DeepSeek-v4 e Qwen3 via gateway compatível com OpenAI da Synthorai. usage.cost e TTFT reais.

  • Cache de prompts em LLM #2: comparar Claude, GPT, Gemini, DeepSeek

    23 de maio de 2026 · prompt-cache · llm-providers · evaluation

    Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 e Qwen3 expõem o cache de prompts de cinco formas diferentes — comparação de recursos medida em 2026.

  • Cache de prompts em LLM #1: como funcionam o cache KV e o TTL

    22 de maio de 2026 · prompt-cache · transformer · llm-architecture

    Como o cache de prompts em LLM realmente funciona: a matemática da atenção do Transformer por trás da reutilização de K/V, o equilíbrio memória-computação que molda o TTL e por que ele reduz custo e TTFT.