Cache de prompts em LLM #2: comparar Claude, GPT, Gemini, DeepSeek
Conteúdo
- 1. Uma taxonomia dos tipos de cache em LLM
- 1.1 Controle: explícito vs implícito vs híbrido
- 1.2 Persistência: em memória vs respaldado em disco
- 1.3 Granularidade: resolução de correspondência
- 1.4 Modelo de objeto: marcadores por chamada vs objetos de cache nomeados
- 2. Análise aprofundada por provedor
- 2.1 Anthropic Claude — Explícito, em memória, granularidade de 1.024 tokens
- 2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1.024 tokens
- 2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados
- 2.4 DeepSeek-v4 — Automático, respaldado em disco, granularidade de 64 tokens
- 2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + implícito
- 3. Comparação lado a lado
- 3.1 Estrutura de descontos (docs dos provedores, 2026-05)
- 3.2 TTL, granularidade e persistência
- 3.3 Latência medida em um prefixo de 7K tokens (2026-05-25)
- 4. O framework de avaliação de 5 dimensões
- 4.1 Custo efetivo por milhão de tokens (ponderado pela taxa de acertos)
- 4.2 Previsibilidade da taxa de acertos
- 4.3 Adequação TTL ↔ cadência de tráfego
- 4.4 Latência em caso de falha de cache
- 4.5 Ergonomia da API e custo de migração
- 5. Vereditos rápidos por formato de carga de trabalho
- 6. Considerações de migração
- 7. O que muda ao longo do tempo
- Perguntas frequentes
TL;DR — Cinco grandes provedores de LLM expõem o cache de prompts de cinco formas muito diferentes — marcadores explícitos (Claude), totalmente automático (GPT-5, DeepSeek-v4), híbrido implícito+explícito (Gemini, Qwen) ou respaldo arquitetural em disco (o MLA da DeepSeek). Este artigo oferece uma comparação recurso a recurso e um framework de avaliação de 5 dimensões para pontuá-los conforme a sua carga de trabalho — custo, previsibilidade da taxa de acertos, latência, adequação do TTL e ergonomia da API. O contexto arquitetural está na parte 1: Princípios de cache; os números medidos e Python funcional estão na parte 3: Tutorial.
Série: Parte 2 de 4 · Anteriormente: Parte 1 — Princípios de cache · A seguir: Parte 3 — Tutorial com código funcional · Parte 4 — Melhor LLM por caso de uso
1. Uma taxonomia dos tipos de cache em LLM
Antes de ir provedor a provedor, vale a pena fixar quatro eixos de design:
1.1 Controle: explícito vs implícito vs híbrido
- Explícito — o desenvolvedor marca quais partes do prompt cachear (Anthropic Claude
cache_control). Controle máximo; exige mudanças de código. - Implícito / automático — o provedor detecta automaticamente os prefixos correspondentes (OpenAI GPT-5, DeepSeek-v4). Zero mudanças de código; nenhuma forma de forçar um acerto.
- Híbrido — ambos os modos disponíveis; escolha por chamada (Gemini, Qwen).
1.2 Persistência: em memória vs respaldado em disco
Definida pela arquitetura do cache KV do provedor, não pela superfície da API.
- Em memória (HBM) — os caches vivem na memória da GPU, de vida curta (minutos), com grandes blocos mínimos (1.024 tokens). Padrão na maioria dos provedores.
- Respaldado em disco — os caches persistem em SSD/NVMe com TTLs muito mais longos e granularidade mais fina. A DeepSeek entrega isso em escala, habilitado pela sua compressão Multi-head Latent Attention (MLA), que reduz o cache KV em cerca de 4× (DeepSeek-AI, 2024).
1.3 Granularidade: resolução de correspondência
Quão pequeno pode ser um prefixo para obter um desconto?
- 64 tokens — DeepSeek (a mais fina do setor)
- 128 tokens — OpenAI (incremento de correspondência)
- 1.024 tokens — bloco cacheável mínimo para Claude, OpenAI, Gemini, Qwen
Uma granularidade mais fina significa que a sobreposição parcial de prefixos também conta — muito mais tolerante a pequenas variações do prompt.
1.4 Modelo de objeto: marcadores por chamada vs objetos de cache nomeados
- Marcadores por chamada — cada requisição inclui em linha o conteúdo a cachear, que o provedor transforma em hash (Claude, OpenAI, DeepSeek, Qwen implícito).
- Objetos de cache nomeados — o desenvolvedor cria um cache por uma chamada de API separada, obtém um
cache_ide o referencia depois (Gemini explícito, Qwen explícito). Troca cerimônia adicional por controle explícito do ciclo de vida.
Esses quatro eixos interagem. A oferta de um provedor se descreve pela sua posição em cada um. A próxima seção percorre cada provedor individualmente.
2. Análise aprofundada por provedor
2.1 Anthropic Claude — Explícito, em memória, granularidade de 1.024 tokens
Modelos principais (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.
API de cache. Marque até quatro pontos de quebra cache_control em qualquer lugar do seu sistema ou array de mensagens. Os acertos de cache custam ~10 % da taxa de entrada base; as escritas de cache custam 125 % (um prêmio de 25 %). O TTL padrão é de 5 minutos deslizante (cada acerto o reinicia), com uma opção de 1 hora.
Estrutura de preços. A Anthropic publica taxas por milhão de tokens por modelo em sua página de preços; o desconto de cache é consistente em toda a família. Para um prompt de sistema de 8.000 tokens a 100.000 chamadas/dia no claude-sonnet-4-5, o custo por chamada cai cerca de 8 a 10× assim que o prefixo está quente — ponto de equilíbrio após um único acerto.
Comportamento do TTL. Deslizante de 5 minutos por padrão — cada acerto empurra a expiração mais 5 minutos para frente. O TTL de 1 hora dobra o custo de escrita, mas é essencial para qualquer carga de trabalho com lacunas de inatividade > 5 min.
Granularidade. Mínimo de 1.024 tokens. O hash é sobre a sequência exata de tokens; uma mudança de um único caractere no início invalida todo o prefixo.
Ergonomia da API. A mais alta. O design multiponto de quebra permite cachear «nunca muda» + «raramente muda» + «muda por tarefa» de forma independente — o melhor da categoria para cargas de trabalho de agentes e RAG onde as seções do prompt mudam em cadências diferentes.
Pegadinhas.
- Esquecer de adicionar
cache_controlsignifica nenhum cache nenhum — diferentemente de GPT ou DeepSeek, não há um fallback implícito. - O hashing do cache é sensível à ordem, mesmo dentro dos arrays de ferramentas/funções — ordene-os de forma determinística.
- O padrão de 5 min torna o Claude uma escolha ruim para jobs batch esporádicos sem um keep-alive explícito.
- Se você chama o Claude por um gateway, verifique se o gateway suporta o caminho nativo
/v1/messagesda Anthropic com marcadorescache_control(o caminho compatível com OpenAI/chat/completionsgeralmente não propaga os marcadores — use o SDK da Anthropic apontado para a URL base do gateway).
Melhor adequação. Agentes de contexto longo, chat multiturno com prompts de sistema estáveis, RAG estruturado com cache em camadas.
2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1.024 tokens
Modelos principais (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex para código: gpt-5.2-codex, gpt-5.3-codex.
API de cache. Nada a fazer — automático em cada requisição ≥1.024 tokens. Os acertos de cache são cobrados a 50 % da taxa de entrada; sem prêmio de escrita. Incremento de correspondência: 128 tokens.
Estrutura de preços. A OpenAI publica taxas por milhão de tokens em sua página de preços. A entrada cacheada tem 50 % de desconto; a saída permanece inalterada.
Medido (2026-05-25, prompt de sistema de ~6.900 tokens):
| Modelo | Custo total miss | Custo total hit | Taxa de acertos de cache | TTFT de stream no hit |
|---|---|---|---|---|
gpt-5.4-nano | $0.00131 | $0.00074 (−44%) | 5,888 / 6,887 (85%) | 1.00 s |
gpt-5.4-mini | $0.00267 | $0.00257* | 6,400 / 6,887 (93%) | 0.73 s |
* A completion da passagem de acerto do gpt-5.4-mini foi muito mais curta do que a da passagem de falha; a diferença de custo aqui mistura o desconto de cache com a variação de comprimento da completion. A queda de latência de 5× (3,63 → 0,73 s) é o sinal mais limpo.
Comportamento do TTL. Valor exato não documentado; relatos de campo sugerem de 5 a 60 minutos conforme a carga e a popularidade do prefixo. Prefixos compartilhados populares vivem mais tempo (o LRU os favorece).
Ergonomia da API. Trivial — o código existente continua funcionando. Registre prompt_tokens_details.cached_tokens para medir a taxa de acertos.
Pegadinhas.
- Nenhuma forma de forçar um acerto. Se o seu tráfego produz prefixos únicos, você não ganha nada.
- O desconto de 50 % é mais raso do que os 90/75 % de Claude/DeepSeek (equivale ao implícito do Gemini, ~25 %).
- O streaming às vezes informa os acertos de cache apenas no último chunk — instrumente com cuidado e passe
stream_options={"include_usage": True}.
Melhor adequação. Bases de código existentes que usam GPT, onde o custo de adaptação supera a economia marginal. Tráfego em rajadas, onde a repetição de prefixos é naturalmente alta.
2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados
Modelos principais (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.
API de cache. Dois modos:
- Implícito: automático, como o GPT. Os tokens cacheados são cobrados a ~25 % da taxa de entrada. Sem taxa de armazenamento, sem configuração.
- Explícito: crie um objeto
cachedContentpor uma chamada de API separada. Referencie-o pelo nome nas requisições seguintes. Os tokens cacheados são cobrados a ~10 % (mais baixo), mas você paga uma taxa de armazenamento por hora por milhão de tokens.
Estrutura de preços. O contexto longo é a força do Gemini; o preço escala com a categoria de comprimento de contexto (limiares abaixo de 200K vs acima de 200K com taxas por token mais altas).
Medido (2026-05-25):
| Modelo | Custo miss | Custo hit (stream) | Taxa de acertos de cache |
|---|---|---|---|
gemini-2.5-flash | $0.00198 | $0.00024 (−88%) | 7,140 / 7,322 (97%) |
gemini-2.5-pro | $0.00824 | $0.00205 (−75%) | 6,120 / 7,328 (84%) |
Comportamento do TTL. Implícito: minutos, não divulgado. Explícito: definido pelo desenvolvedor, padrão de 1 hora, até 24 horas.
Ergonomia da API. O cache explícito exige um fluxo de 2 etapas (criar → referenciar). O ciclo de vida do cachedContent (criar, atualizar TTL, excluir) é de sua responsabilidade.
Pegadinhas.
- A taxa de armazenamento é fatal para caches explícitos de baixo volume. Calcule sempre o ponto de equilíbrio para a sua frequência de chamadas.
- A taxa de acertos do cache implícito é variável; não confie nela para a modelagem de custos.
- Os objetos de cache são vinculados a uma região — apps multirregião precisam de caches duplicados.
gemini-*-proé um modelo de raciocínio: com ummax_tokenspequeno, a completion é consumida pelo pensamento oculto e você verácompletion_tokens=0. Aumentemax_tokenspara ≥256 em qualquer caminho voltado ao usuário.
Melhor adequação. Um documento grande (>20K tokens) consultado mais de 10 vezes/hora. Perguntas e respostas sobre vídeo. RAG multimodal sobre PDFs corporativos.
2.4 DeepSeek-v4 — Automático, respaldado em disco, granularidade de 64 tokens
Modelos principais (2026-05): deepseek-v4-flash (geral), deepseek-v4-flash (também cobre cargas de trabalho de coder nesta geração).
API de cache. Automático, como o GPT — mas impulsionado pela compressão MLA, que torna o cache compacto o suficiente para persistir em disco. Os acertos de cache são cobrados a ~25 % da taxa de entrada; sem prêmio de escrita. Correspondência mínima: 64 tokens.
Estrutura de preços. Taxas denominadas em yuans na página de preços da DeepSeek. A taxa de acertos se traduz aproximadamente em uma redução de 75 % do custo de entrada.
Medido (2026-05-25):
| Modelo | Custo miss | Custo hit | Taxa de acertos de cache | TTFT no hit |
|---|---|---|---|---|
deepseek-v4-flash | $0.00091 | $0.00023 (−74%) | 6,784 / 7,101 (96%) | 2.93 s |
Comportamento do TTL. Horas, às vezes mais para prefixos de alto tráfego. O armazenamento respaldado em disco significa que os caches sobrevivem à pressão de memória da GPU que despejaria caches em memória em outros fornecedores.
Granularidade. O mínimo de 64 tokens é o menor do setor. Pequenas edições do prompt deixam a maior parte do prefixo correspondente, em vez de invalidá-lo completamente como os provedores de 1.024 tokens.
Ergonomia da API. API no formato OpenAI; troque a URL base. Campo padrão prompt_tokens_details.cached_tokens.
Pegadinhas.
- Apenas modelos da família DeepSeek. Nenhuma forma de usar este cache com outras famílias de modelos.
- A qualidade em inglês é excelente, mas fica atrás de Claude/GPT-5 nos benchmarks de raciocínio mais difíceis.
Melhor adequação. Cargas de trabalho em chinês (custo). Cargas de trabalho de prefixos de alta frequência onde a granularidade importa (RAG com ordem de recuperação instável). Jobs batch sensíveis ao custo.
2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + implícito
Modelos principais (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes de visão: qwen3-vl-plus, qwen3-vl-flash.
API de cache. Dois modos:
- Implícito: sempre ativo, como o GPT. A porção cacheada é cobrada a ~20 % da taxa de entrada.
- Explícito: crie um cache via API com TTL personalizado. Acertos a ~10 %, escritas a 125 %.
Medido (2026-05-25):
| Modelo | Custo miss | Custo hit | Taxa de acertos de cache | TTFT no hit | Notas |
|---|---|---|---|---|---|
qwen3-max | $0.00553 | $0.00549 | 7,040 / 7,234 (97%) | 1.53 s | Acerto de cache reportado, o campo de custo do gateway não refletiu o desconto nesta data (verificar em produção) |
Comportamento do TTL. Padrão de 5 minutos, configurável por objeto de cache. Janela deslizante para o explícito; TTL fixo curto para o implícito.
Ergonomia da API. O implícito tem formato GPT (zero trabalho). O explícito é um fluxo de 2 etapas com ciclo de vida de cache.
Pegadinhas.
- No momento, apenas
qwen3-maxeqwen3.5-plussuportam cache explícito. - A disponibilidade multirregião (Singapura, EUA) está sendo implantada — confirme a região antes de confiar nela para dados fora da China.
- Lacunas de documentação em relação a Anthropic/OpenAI — testes empíricos recomendados.
Melhor adequação. Cargas de trabalho corporativas chinesas que precisam de controle rígido de cache. Clientes que já estão na Alibaba Cloud.
3. Comparação lado a lado
3.1 Estrutura de descontos (docs dos provedores, 2026-05)
| Provedor | Prêmio de escrita de cache | Taxa de entrada cacheada | Desconto efetivo |
|---|---|---|---|
| Anthropic Claude | +25% | 10% da base | ~90% de desconto |
| OpenAI GPT-5 | nenhum | 50% da base | 50% de desconto |
| Google Gemini (implícito) | nenhum | ~25% da base | ~75% de desconto |
| Google Gemini (explícito) | nenhum, mas taxa de armazenamento por hora | ~10% da base | ~90% de desconto se amortizado |
| DeepSeek-v4 | nenhum | ~25% da base | ~75% de desconto |
| Alibaba Qwen3 (implícito) | nenhum | ~20% da base | ~80% de desconto |
| Alibaba Qwen3 (explícito) | +25% | ~10% da base | ~90% de desconto |
3.2 TTL, granularidade e persistência
| Provedor | TTL padrão | TTL máx | Persistência | Unidade mínima de correspondência |
|---|---|---|---|---|
| Claude | 5 min deslizante | 1 hora | Em memória (HBM) | 1.024 tok |
| GPT-5 | ~5 min | ~60 min | Em memória (HBM) | 1.024 tok / incremento de 128 tok |
| Gemini (implícito) | minutos | não divulgado | Em memória | 1.024 tok |
| Gemini (explícito) | 1 hora | 24 horas | Em memória | 1.024 tok |
| DeepSeek-v4 | horas | horas+ | Disco (SSD) | 64 tok |
| Qwen3 | 5 min | configurável | Em memória | ~1.024 tok |
3.3 Latência medida em um prefixo de 7K tokens (2026-05-25)
| Provedor / modelo | Total miss | TTFT no hit (stream) | Ganho de latência |
|---|---|---|---|
claude-haiku-4-5 † | ~3.0 s | 1.31 s | ~2× |
claude-sonnet-4-5 † | ~2.0 s | 1.76 s | ~1.2× |
claude-opus-4-5 † | ~2.2 s | 2.08 s | ~1.05× |
gpt-5.4-mini | ~3.6 s | 0.73 s | ~5× |
gpt-5.4-nano | ~2.2 s | 1.00 s | ~2× |
gemini-2.5-flash | ~2.5 s | ~1.4 s | ~1.8× |
gemini-2.5-pro | ~3.0 s | ~1.8 s | ~1.7× |
deepseek-v4-flash | ~4.0 s | 2.93 s | ~1.4× |
qwen3-max | ~4.8 s | 1.53 s | ~3× |
† As linhas do Claude são medidas com marcadores cache_control via o endpoint nativo da Anthropic /v1/messages (ver Parte 3 §2). O maior ganho do Claude é no custo (~88–89 % de desconto na entrada — ver Parte 3 §2 para a tabela completa de custos); a melhoria do TTFT escala de forma dramática para prompts de 100K+ tokens segundo os números publicados pela Anthropic.
Uma única execução sequencial, sem carga concorrente. Seus números variarão com a região, a hora do dia e a carga concorrente de outros inquilinos.
4. O framework de avaliação de 5 dimensões
Manchetes como «Claude economiza 90 %» são interessantes, mas raramente dizem o que escolher. Pontue cada provedor nessas cinco dimensões para a sua carga de trabalho e, então, pondere-as conforme o que importa para você.
4.1 Custo efetivo por milhão de tokens (ponderado pela taxa de acertos)
Não compare os preços base — compare o custo esperado à sua taxa de acertos real:
effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate
Exemplo trabalhado para 70 % de repetição de prefixo (chatbot típico):
- Claude: ~90 % de desconto × 0,7 acerto + 25 % de escrita × 0,3 → efetivo ≈ base × 0,45
- GPT-5: ~50 % × 0,7 + 0 → efetivo ≈ base × 0,65
- Gemini implícito: ~75 % × 0,7 + 0 → efetivo ≈ base × 0,48
- DeepSeek-v4: ~75 % × 0,7 + 0 → efetivo ≈ base × 0,48
Multiplique pela taxa base real de cada provedor (diferente entre os provedores) para obter o valor comparável em dólares. Pontuação: calcule effective_cost para a sua carga de trabalho; menor é melhor.
4.2 Previsibilidade da taxa de acertos
- Cacheadores explícitos (Claude, Qwen explícito, Gemini explícito) — alta previsibilidade. Você marcou, ele acerta (dentro do TTL).
- Cacheadores automáticos (GPT-5, DeepSeek-v4, Gemini implícito, Qwen implícito) — depende da similaridade dos prefixos e da carga do provedor (despejo LRU).
Para SLAs atrelados ao custo, prefira o explícito. Para otimização de melhor esforço, o automático está bom.
4.3 Adequação TTL ↔ cadência de tráfego
| Padrão de tráfego | O que você precisa |
|---|---|
| Contínuo (segundos entre chamadas) | O padrão de qualquer provedor funciona |
| Vinculado a sessão (minutos) | TTL de 5–60 min (Claude, GPT-5, Qwen) |
| Em rajadas (horas entre as rajadas) | TTL de 1 hora+ (Claude 1h, Gemini explícito, DeepSeek-v4) |
| Esporádico (consultas por dia) | TTL de 24 horas (Gemini explícito) ou aceitar escritas a frio |
4.4 Latência em caso de falha de cache
Um provedor rápido nos acertos, mas lento nas falhas, continua problemático se a sua taxa de acertos não for alta. Compare ambos os números de §3.3 e pondere pela taxa de acertos esperada.
4.5 Ergonomia da API e custo de migração
- Migração mínima: GPT-5 ↔ DeepSeek-v4 (ambos no formato OpenAI, ambos com cache automático).
- Média: GPT-5 → Gemini implícito (SDK diferente, nenhum código de cache a reescrever).
- Alta: GPT-5 → Claude (precisa adicionar
cache_control, reestruturar as camadas do prompt). - Máxima: qualquer passagem de um único provedor para multiprovedor sem gateway (várias APIs de cache).
5. Vereditos rápidos por formato de carga de trabalho
| Carga de trabalho | Escolha | Por quê |
|---|---|---|
| Chat em inglês, usuários globais | claude-haiku-4-5 ou gpt-5.4-nano | Desconto de cache profundo + modelo pequeno e rápido |
| Chat em chinês, continente | deepseek-v4-flash ou qwen3.5-flash | Cache em escala de horas + baixo custo no idioma CN |
| RAG em inglês (alta qualidade) | claude-sonnet-4-5 + multiponto de quebra | A estrutura de prompt em camadas é cacheada eficientemente |
| RAG em chinês (sensível ao custo) | deepseek-v4-flash | A granularidade de 64 tokens tolera a reordenação da recuperação |
| Perguntas e respostas sobre documento longo (esporádico) | gemini-2.5-pro explícito | TTL de 24 horas, projetado para isso |
| Base de código GPT existente, sem reescrita | gpt-5.4-mini (status quo) | ~50 % de economia grátis |
| Agentes complexos (15+ etapas) | claude-sonnet-4-5 + cache_control de 4 BP | 85 %+ de taxa de acertos no tráfego de agentes |
| Portabilidade multiprovedor | Gateway, qualquer modelo | Um SDK, um cabeçalho de autenticação |
6. Considerações de migração
Se a sua pontuação diz para mudar, três coisas a planejar:
Movimentação de dados. Os prefixos cacheados não se transferem entre provedores — cada mudança é uma partida a frio. Reserve várias horas de custo acima do normal durante o aquecimento.
Rearquitetura de prompts. O design multiponto de quebra da Anthropic incentiva uma estrutura de prompt em camadas que é, na verdade, melhor para qualquer provedor — refatorar uma vez beneficia também os caminhos não-Claude.
Cobertura por meio de um gateway. Se você não tem certeza, roteie por um Token Gateway. Você mantém a opcionalidade sem se comprometer com um único fornecedor, ao custo de um salto adicional e (dependendo do gateway) de potencialmente perder o acesso aos controles de cache específicos do fornecedor. Ver Parte 3 §9 sobre o que o gateway da Synthorai realmente faz vs as afirmações das quais você deve desconfiar.
7. O que muda ao longo do tempo
Uma nota sobre a durabilidade dessas comparações: os números deste artigo vão mudar. O cache se tornou um recurso competitivo em preço, e os provedores atualizam suas ofertas a cada poucos meses. Duas coisas a observar:
- Extensões de TTL. A opção de 1 hora da Anthropic está em GA; o Gemini pode se estender a vários dias. Espere que a ansiedade com o TTL diminua.
- Granularidade. OpenAI e Anthropic provavelmente reduzirão seu mínimo de 1.024 tokens em algum momento; a barra de 64 tokens da DeepSeek estabeleceu a nova expectativa.
Quando os descontos convergem, o diferencial passa a ser a ergonomia da API e a latência — não a economia de manchete.
Em breve: Parte 3 — Tutorial de cache de prompts: Python funcional pega o panorama arquitetural acima e o transforma em código executável com a tabela de latência de §3.3 reproduzida como um benchmark que você pode executar você mesmo.
Perguntas frequentes
Qual provedor de LLM tem o cache de prompts mais barato, considerando tudo?
À mesma taxa de acertos (~75 %), deepseek-v4-flash para cargas de trabalho em chinês e gemini-2.5-flash implícito para inglês são os mais baratos em custo efetivo por milhão nas nossas medições de 2026-05. claude-sonnet-4-5 tem o desconto por chamada única mais profundo (~90 %), mas um preço base mais alto — ele vence quando a taxa de acertos é >85 %. Insira a sua própria taxa de acertos na fórmula de §4.1.
Por que o Gemini custa mais em cargas de trabalho de baixo volume? A taxa de armazenamento por hora dos caches explícitos consome o desconto, a menos que você consulte o cache com frequência. Para cargas de trabalho de baixo volume, use o cache implícito do Gemini (sem taxa de armazenamento, ~25 % de desconto).
Posso usar o cache_control do Claude com OpenAI?
Não diretamente — são implementações de cache separadas. No endpoint compatível com OpenAI /chat/completions, o campo normalmente não tem efeito diante de modelos não-Anthropic (esses cacheiam automaticamente de qualquer forma). Para o Claude especificamente, use o endpoint nativo da Anthropic /v1/messages com os marcadores.
A arquitetura MLA da DeepSeek é proprietária? O paper (DeepSeek-AI 2024) é público. Outros provedores poderiam adotar compressão KV no estilo MLA, mas isso requer retreinar o modelo base — não é uma troca em tempo de execução. Em 2026-05, a DeepSeek continua sendo o único grande provedor que o entrega em produção.
E os modelos open source auto-hospedados? vLLM, SGLang e outros motores de inferência suportam cache de prefixo nativamente (o paper do PagedAttention é a base). Se você se auto-hospeda em H100/H200, pode implementar cache respaldado em disco com LMCache ou similar. A análise de preços aqui se aplica apenas aos serviços gerenciados — a economia da auto-hospedagem é totalmente diferente.
Por que não há provedores de API de Mistral, Cohere ou Llama nesta comparação? Suas ofertas de cache estão menos maduras em 2026-05. O cache da Mistral está em acesso antecipado; a Cohere não expõe cache explícito; os provedores de API de Llama (Groq, Together, Replicate) variam bastante. Revisitar quando seus conjuntos de recursos se estabilizarem.
Fontes: Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). Números medidos a partir de https://synthorai.io/v1 em 2026-05-25.