Blog de engenharia

Problemas reais de engenharia que encontramos ao construir um gateway de API LLM.

Reasoning Effort no GLM 5.2: o ajuste que reduz o custo em 20x (medido)

Reasoning Effort no GLM 5.2: o ajuste que reduz o custo em 20x (medido)

24 de junho de 2026 · glm · coding · llm-gateway · cost · reasoning

A mesma resposta de programação: $0.0031 com o reasoning effort ajustado corretamente, contra $0.062 com o padrão ilimitado do GLM 5.2. 20x mais barato e 30x mais rápido. Como ajustar o nível para cada tarefa.

Claude Fable 5 não funciona com ZDR: retenção de 30 dias é obrigatória

Claude Fable 5 não funciona com ZDR: retenção de 30 dias é obrigatória

12 de junho de 2026 · claude-fable-5 · data-retention · compliance

Organizações com ZDR recebem erro 400 no claude-fable-5: não há opt-out na API do Claude, Bedrock, Vertex ou Foundry. O impacto em HIPAA/COPPA e a correção via roteamento.

Cache de prompts em LLMs: guia completo de 2026 (reduza o custo de entrada em 50–90%)

Cache de prompts em LLMs: guia completo de 2026 (reduza o custo de entrada em 50–90%)

26 de maio de 2026 · prompt-cache · series-overview · llm-architecture

Como funciona o cache de prompts no Claude, GPT, Gemini e DeepSeek: reduza o custo de entrada em 50–90% e o TTFT em 3–10x. Arquitetura, comparação entre provedores e código Python.