Cache de prompts em LLM #2: comparar Claude, GPT, Gemini, DeepSeek

Conteúdo
  1. 1. Uma taxonomia dos tipos de cache em LLM
  2. 1.1 Controle: explícito vs implícito vs híbrido
  3. 1.2 Persistência: em memória vs respaldado em disco
  4. 1.3 Granularidade: resolução de correspondência
  5. 1.4 Modelo de objeto: marcadores por chamada vs objetos de cache nomeados
  6. 2. Análise aprofundada por provedor
  7. 2.1 Anthropic Claude — Explícito, em memória, granularidade de 1.024 tokens
  8. 2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1.024 tokens
  9. 2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados
  10. 2.4 DeepSeek-v4 — Automático, respaldado em disco, granularidade de 64 tokens
  11. 2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + implícito
  12. 3. Comparação lado a lado
  13. 3.1 Estrutura de descontos (docs dos provedores, 2026-05)
  14. 3.2 TTL, granularidade e persistência
  15. 3.3 Latência medida em um prefixo de 7K tokens (2026-05-25)
  16. 4. O framework de avaliação de 5 dimensões
  17. 4.1 Custo efetivo por milhão de tokens (ponderado pela taxa de acertos)
  18. 4.2 Previsibilidade da taxa de acertos
  19. 4.3 Adequação TTL ↔ cadência de tráfego
  20. 4.4 Latência em caso de falha de cache
  21. 4.5 Ergonomia da API e custo de migração
  22. 5. Vereditos rápidos por formato de carga de trabalho
  23. 6. Considerações de migração
  24. 7. O que muda ao longo do tempo
  25. Perguntas frequentes

TL;DR — Cinco grandes provedores de LLM expõem o cache de prompts de cinco formas muito diferentes — marcadores explícitos (Claude), totalmente automático (GPT-5, DeepSeek-v4), híbrido implícito+explícito (Gemini, Qwen) ou respaldo arquitetural em disco (o MLA da DeepSeek). Este artigo oferece uma comparação recurso a recurso e um framework de avaliação de 5 dimensões para pontuá-los conforme a sua carga de trabalho — custo, previsibilidade da taxa de acertos, latência, adequação do TTL e ergonomia da API. O contexto arquitetural está na parte 1: Princípios de cache; os números medidos e Python funcional estão na parte 3: Tutorial.

Série: Parte 2 de 4 · Anteriormente: Parte 1 — Princípios de cache · A seguir: Parte 3 — Tutorial com código funcional · Parte 4 — Melhor LLM por caso de uso


1. Uma taxonomia dos tipos de cache em LLM

Antes de ir provedor a provedor, vale a pena fixar quatro eixos de design:

1.1 Controle: explícito vs implícito vs híbrido

  • Explícito — o desenvolvedor marca quais partes do prompt cachear (Anthropic Claude cache_control). Controle máximo; exige mudanças de código.
  • Implícito / automático — o provedor detecta automaticamente os prefixos correspondentes (OpenAI GPT-5, DeepSeek-v4). Zero mudanças de código; nenhuma forma de forçar um acerto.
  • Híbrido — ambos os modos disponíveis; escolha por chamada (Gemini, Qwen).

1.2 Persistência: em memória vs respaldado em disco

Definida pela arquitetura do cache KV do provedor, não pela superfície da API.

  • Em memória (HBM) — os caches vivem na memória da GPU, de vida curta (minutos), com grandes blocos mínimos (1.024 tokens). Padrão na maioria dos provedores.
  • Respaldado em disco — os caches persistem em SSD/NVMe com TTLs muito mais longos e granularidade mais fina. A DeepSeek entrega isso em escala, habilitado pela sua compressão Multi-head Latent Attention (MLA), que reduz o cache KV em cerca de 4× (DeepSeek-AI, 2024).

1.3 Granularidade: resolução de correspondência

Quão pequeno pode ser um prefixo para obter um desconto?

  • 64 tokens — DeepSeek (a mais fina do setor)
  • 128 tokens — OpenAI (incremento de correspondência)
  • 1.024 tokens — bloco cacheável mínimo para Claude, OpenAI, Gemini, Qwen

Uma granularidade mais fina significa que a sobreposição parcial de prefixos também conta — muito mais tolerante a pequenas variações do prompt.

1.4 Modelo de objeto: marcadores por chamada vs objetos de cache nomeados

  • Marcadores por chamada — cada requisição inclui em linha o conteúdo a cachear, que o provedor transforma em hash (Claude, OpenAI, DeepSeek, Qwen implícito).
  • Objetos de cache nomeados — o desenvolvedor cria um cache por uma chamada de API separada, obtém um cache_id e o referencia depois (Gemini explícito, Qwen explícito). Troca cerimônia adicional por controle explícito do ciclo de vida.

Esses quatro eixos interagem. A oferta de um provedor se descreve pela sua posição em cada um. A próxima seção percorre cada provedor individualmente.


2. Análise aprofundada por provedor

2.1 Anthropic Claude — Explícito, em memória, granularidade de 1.024 tokens

Modelos principais (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

API de cache. Marque até quatro pontos de quebra cache_control em qualquer lugar do seu sistema ou array de mensagens. Os acertos de cache custam ~10 % da taxa de entrada base; as escritas de cache custam 125 % (um prêmio de 25 %). O TTL padrão é de 5 minutos deslizante (cada acerto o reinicia), com uma opção de 1 hora.

Estrutura de preços. A Anthropic publica taxas por milhão de tokens por modelo em sua página de preços; o desconto de cache é consistente em toda a família. Para um prompt de sistema de 8.000 tokens a 100.000 chamadas/dia no claude-sonnet-4-5, o custo por chamada cai cerca de 8 a 10× assim que o prefixo está quente — ponto de equilíbrio após um único acerto.

Comportamento do TTL. Deslizante de 5 minutos por padrão — cada acerto empurra a expiração mais 5 minutos para frente. O TTL de 1 hora dobra o custo de escrita, mas é essencial para qualquer carga de trabalho com lacunas de inatividade > 5 min.

Granularidade. Mínimo de 1.024 tokens. O hash é sobre a sequência exata de tokens; uma mudança de um único caractere no início invalida todo o prefixo.

Ergonomia da API. A mais alta. O design multiponto de quebra permite cachear «nunca muda» + «raramente muda» + «muda por tarefa» de forma independente — o melhor da categoria para cargas de trabalho de agentes e RAG onde as seções do prompt mudam em cadências diferentes.

Pegadinhas.

  • Esquecer de adicionar cache_control significa nenhum cache nenhum — diferentemente de GPT ou DeepSeek, não há um fallback implícito.
  • O hashing do cache é sensível à ordem, mesmo dentro dos arrays de ferramentas/funções — ordene-os de forma determinística.
  • O padrão de 5 min torna o Claude uma escolha ruim para jobs batch esporádicos sem um keep-alive explícito.
  • Se você chama o Claude por um gateway, verifique se o gateway suporta o caminho nativo /v1/messages da Anthropic com marcadores cache_control (o caminho compatível com OpenAI /chat/completions geralmente não propaga os marcadores — use o SDK da Anthropic apontado para a URL base do gateway).

Melhor adequação. Agentes de contexto longo, chat multiturno com prompts de sistema estáveis, RAG estruturado com cache em camadas.


2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1.024 tokens

Modelos principais (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex para código: gpt-5.2-codex, gpt-5.3-codex.

API de cache. Nada a fazer — automático em cada requisição ≥1.024 tokens. Os acertos de cache são cobrados a 50 % da taxa de entrada; sem prêmio de escrita. Incremento de correspondência: 128 tokens.

Estrutura de preços. A OpenAI publica taxas por milhão de tokens em sua página de preços. A entrada cacheada tem 50 % de desconto; a saída permanece inalterada.

Medido (2026-05-25, prompt de sistema de ~6.900 tokens):

ModeloCusto total missCusto total hitTaxa de acertos de cacheTTFT de stream no hit
gpt-5.4-nano$0.00131$0.00074 (−44%)5,888 / 6,887 (85%)1.00 s
gpt-5.4-mini$0.00267$0.00257*6,400 / 6,887 (93%)0.73 s

* A completion da passagem de acerto do gpt-5.4-mini foi muito mais curta do que a da passagem de falha; a diferença de custo aqui mistura o desconto de cache com a variação de comprimento da completion. A queda de latência de 5× (3,63 → 0,73 s) é o sinal mais limpo.

Comportamento do TTL. Valor exato não documentado; relatos de campo sugerem de 5 a 60 minutos conforme a carga e a popularidade do prefixo. Prefixos compartilhados populares vivem mais tempo (o LRU os favorece).

Ergonomia da API. Trivial — o código existente continua funcionando. Registre prompt_tokens_details.cached_tokens para medir a taxa de acertos.

Pegadinhas.

  • Nenhuma forma de forçar um acerto. Se o seu tráfego produz prefixos únicos, você não ganha nada.
  • O desconto de 50 % é mais raso do que os 90/75 % de Claude/DeepSeek (equivale ao implícito do Gemini, ~25 %).
  • O streaming às vezes informa os acertos de cache apenas no último chunk — instrumente com cuidado e passe stream_options={"include_usage": True}.

Melhor adequação. Bases de código existentes que usam GPT, onde o custo de adaptação supera a economia marginal. Tráfego em rajadas, onde a repetição de prefixos é naturalmente alta.


2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados

Modelos principais (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

API de cache. Dois modos:

  • Implícito: automático, como o GPT. Os tokens cacheados são cobrados a ~25 % da taxa de entrada. Sem taxa de armazenamento, sem configuração.
  • Explícito: crie um objeto cachedContent por uma chamada de API separada. Referencie-o pelo nome nas requisições seguintes. Os tokens cacheados são cobrados a ~10 % (mais baixo), mas você paga uma taxa de armazenamento por hora por milhão de tokens.

Estrutura de preços. O contexto longo é a força do Gemini; o preço escala com a categoria de comprimento de contexto (limiares abaixo de 200K vs acima de 200K com taxas por token mais altas).

Medido (2026-05-25):

ModeloCusto missCusto hit (stream)Taxa de acertos de cache
gemini-2.5-flash$0.00198$0.00024 (−88%)7,140 / 7,322 (97%)
gemini-2.5-pro$0.00824$0.00205 (−75%)6,120 / 7,328 (84%)

Comportamento do TTL. Implícito: minutos, não divulgado. Explícito: definido pelo desenvolvedor, padrão de 1 hora, até 24 horas.

Ergonomia da API. O cache explícito exige um fluxo de 2 etapas (criar → referenciar). O ciclo de vida do cachedContent (criar, atualizar TTL, excluir) é de sua responsabilidade.

Pegadinhas.

  • A taxa de armazenamento é fatal para caches explícitos de baixo volume. Calcule sempre o ponto de equilíbrio para a sua frequência de chamadas.
  • A taxa de acertos do cache implícito é variável; não confie nela para a modelagem de custos.
  • Os objetos de cache são vinculados a uma região — apps multirregião precisam de caches duplicados.
  • gemini-*-pro é um modelo de raciocínio: com um max_tokens pequeno, a completion é consumida pelo pensamento oculto e você verá completion_tokens=0. Aumente max_tokens para ≥256 em qualquer caminho voltado ao usuário.

Melhor adequação. Um documento grande (>20K tokens) consultado mais de 10 vezes/hora. Perguntas e respostas sobre vídeo. RAG multimodal sobre PDFs corporativos.


2.4 DeepSeek-v4 — Automático, respaldado em disco, granularidade de 64 tokens

Modelos principais (2026-05): deepseek-v4-flash (geral), deepseek-v4-flash (também cobre cargas de trabalho de coder nesta geração).

API de cache. Automático, como o GPT — mas impulsionado pela compressão MLA, que torna o cache compacto o suficiente para persistir em disco. Os acertos de cache são cobrados a ~25 % da taxa de entrada; sem prêmio de escrita. Correspondência mínima: 64 tokens.

Estrutura de preços. Taxas denominadas em yuans na página de preços da DeepSeek. A taxa de acertos se traduz aproximadamente em uma redução de 75 % do custo de entrada.

Medido (2026-05-25):

ModeloCusto missCusto hitTaxa de acertos de cacheTTFT no hit
deepseek-v4-flash$0.00091$0.00023 (−74%)6,784 / 7,101 (96%)2.93 s

Comportamento do TTL. Horas, às vezes mais para prefixos de alto tráfego. O armazenamento respaldado em disco significa que os caches sobrevivem à pressão de memória da GPU que despejaria caches em memória em outros fornecedores.

Granularidade. O mínimo de 64 tokens é o menor do setor. Pequenas edições do prompt deixam a maior parte do prefixo correspondente, em vez de invalidá-lo completamente como os provedores de 1.024 tokens.

Ergonomia da API. API no formato OpenAI; troque a URL base. Campo padrão prompt_tokens_details.cached_tokens.

Pegadinhas.

  • Apenas modelos da família DeepSeek. Nenhuma forma de usar este cache com outras famílias de modelos.
  • A qualidade em inglês é excelente, mas fica atrás de Claude/GPT-5 nos benchmarks de raciocínio mais difíceis.

Melhor adequação. Cargas de trabalho em chinês (custo). Cargas de trabalho de prefixos de alta frequência onde a granularidade importa (RAG com ordem de recuperação instável). Jobs batch sensíveis ao custo.


2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + implícito

Modelos principais (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes de visão: qwen3-vl-plus, qwen3-vl-flash.

API de cache. Dois modos:

  • Implícito: sempre ativo, como o GPT. A porção cacheada é cobrada a ~20 % da taxa de entrada.
  • Explícito: crie um cache via API com TTL personalizado. Acertos a ~10 %, escritas a 125 %.

Medido (2026-05-25):

ModeloCusto missCusto hitTaxa de acertos de cacheTTFT no hitNotas
qwen3-max$0.00553$0.005497,040 / 7,234 (97%)1.53 sAcerto de cache reportado, o campo de custo do gateway não refletiu o desconto nesta data (verificar em produção)

Comportamento do TTL. Padrão de 5 minutos, configurável por objeto de cache. Janela deslizante para o explícito; TTL fixo curto para o implícito.

Ergonomia da API. O implícito tem formato GPT (zero trabalho). O explícito é um fluxo de 2 etapas com ciclo de vida de cache.

Pegadinhas.

  • No momento, apenas qwen3-max e qwen3.5-plus suportam cache explícito.
  • A disponibilidade multirregião (Singapura, EUA) está sendo implantada — confirme a região antes de confiar nela para dados fora da China.
  • Lacunas de documentação em relação a Anthropic/OpenAI — testes empíricos recomendados.

Melhor adequação. Cargas de trabalho corporativas chinesas que precisam de controle rígido de cache. Clientes que já estão na Alibaba Cloud.



3. Comparação lado a lado

3.1 Estrutura de descontos (docs dos provedores, 2026-05)

ProvedorPrêmio de escrita de cacheTaxa de entrada cacheadaDesconto efetivo
Anthropic Claude+25%10% da base~90% de desconto
OpenAI GPT-5nenhum50% da base50% de desconto
Google Gemini (implícito)nenhum~25% da base~75% de desconto
Google Gemini (explícito)nenhum, mas taxa de armazenamento por hora~10% da base~90% de desconto se amortizado
DeepSeek-v4nenhum~25% da base~75% de desconto
Alibaba Qwen3 (implícito)nenhum~20% da base~80% de desconto
Alibaba Qwen3 (explícito)+25%~10% da base~90% de desconto

3.2 TTL, granularidade e persistência

ProvedorTTL padrãoTTL máxPersistênciaUnidade mínima de correspondência
Claude5 min deslizante1 horaEm memória (HBM)1.024 tok
GPT-5~5 min~60 minEm memória (HBM)1.024 tok / incremento de 128 tok
Gemini (implícito)minutosnão divulgadoEm memória1.024 tok
Gemini (explícito)1 hora24 horasEm memória1.024 tok
DeepSeek-v4horashoras+Disco (SSD)64 tok
Qwen35 minconfigurávelEm memória~1.024 tok

3.3 Latência medida em um prefixo de 7K tokens (2026-05-25)

Provedor / modeloTotal missTTFT no hit (stream)Ganho de latência
claude-haiku-4-5~3.0 s1.31 s~2×
claude-sonnet-4-5~2.0 s1.76 s~1.2×
claude-opus-4-5~2.2 s2.08 s~1.05×
gpt-5.4-mini~3.6 s0.73 s~5×
gpt-5.4-nano~2.2 s1.00 s~2×
gemini-2.5-flash~2.5 s~1.4 s~1.8×
gemini-2.5-pro~3.0 s~1.8 s~1.7×
deepseek-v4-flash~4.0 s2.93 s~1.4×
qwen3-max~4.8 s1.53 s~3×

† As linhas do Claude são medidas com marcadores cache_control via o endpoint nativo da Anthropic /v1/messages (ver Parte 3 §2). O maior ganho do Claude é no custo (~88–89 % de desconto na entrada — ver Parte 3 §2 para a tabela completa de custos); a melhoria do TTFT escala de forma dramática para prompts de 100K+ tokens segundo os números publicados pela Anthropic.

Uma única execução sequencial, sem carga concorrente. Seus números variarão com a região, a hora do dia e a carga concorrente de outros inquilinos.


4. O framework de avaliação de 5 dimensões

Manchetes como «Claude economiza 90 %» são interessantes, mas raramente dizem o que escolher. Pontue cada provedor nessas cinco dimensões para a sua carga de trabalho e, então, pondere-as conforme o que importa para você.

4.1 Custo efetivo por milhão de tokens (ponderado pela taxa de acertos)

Não compare os preços base — compare o custo esperado à sua taxa de acertos real:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Exemplo trabalhado para 70 % de repetição de prefixo (chatbot típico):

  • Claude: ~90 % de desconto × 0,7 acerto + 25 % de escrita × 0,3 → efetivo ≈ base × 0,45
  • GPT-5: ~50 % × 0,7 + 0 → efetivo ≈ base × 0,65
  • Gemini implícito: ~75 % × 0,7 + 0 → efetivo ≈ base × 0,48
  • DeepSeek-v4: ~75 % × 0,7 + 0 → efetivo ≈ base × 0,48

Multiplique pela taxa base real de cada provedor (diferente entre os provedores) para obter o valor comparável em dólares. Pontuação: calcule effective_cost para a sua carga de trabalho; menor é melhor.

4.2 Previsibilidade da taxa de acertos

  • Cacheadores explícitos (Claude, Qwen explícito, Gemini explícito) — alta previsibilidade. Você marcou, ele acerta (dentro do TTL).
  • Cacheadores automáticos (GPT-5, DeepSeek-v4, Gemini implícito, Qwen implícito) — depende da similaridade dos prefixos e da carga do provedor (despejo LRU).

Para SLAs atrelados ao custo, prefira o explícito. Para otimização de melhor esforço, o automático está bom.

4.3 Adequação TTL ↔ cadência de tráfego

Padrão de tráfegoO que você precisa
Contínuo (segundos entre chamadas)O padrão de qualquer provedor funciona
Vinculado a sessão (minutos)TTL de 5–60 min (Claude, GPT-5, Qwen)
Em rajadas (horas entre as rajadas)TTL de 1 hora+ (Claude 1h, Gemini explícito, DeepSeek-v4)
Esporádico (consultas por dia)TTL de 24 horas (Gemini explícito) ou aceitar escritas a frio

4.4 Latência em caso de falha de cache

Um provedor rápido nos acertos, mas lento nas falhas, continua problemático se a sua taxa de acertos não for alta. Compare ambos os números de §3.3 e pondere pela taxa de acertos esperada.

4.5 Ergonomia da API e custo de migração

  • Migração mínima: GPT-5 ↔ DeepSeek-v4 (ambos no formato OpenAI, ambos com cache automático).
  • Média: GPT-5 → Gemini implícito (SDK diferente, nenhum código de cache a reescrever).
  • Alta: GPT-5 → Claude (precisa adicionar cache_control, reestruturar as camadas do prompt).
  • Máxima: qualquer passagem de um único provedor para multiprovedor sem gateway (várias APIs de cache).

5. Vereditos rápidos por formato de carga de trabalho

Carga de trabalhoEscolhaPor quê
Chat em inglês, usuários globaisclaude-haiku-4-5 ou gpt-5.4-nanoDesconto de cache profundo + modelo pequeno e rápido
Chat em chinês, continentedeepseek-v4-flash ou qwen3.5-flashCache em escala de horas + baixo custo no idioma CN
RAG em inglês (alta qualidade)claude-sonnet-4-5 + multiponto de quebraA estrutura de prompt em camadas é cacheada eficientemente
RAG em chinês (sensível ao custo)deepseek-v4-flashA granularidade de 64 tokens tolera a reordenação da recuperação
Perguntas e respostas sobre documento longo (esporádico)gemini-2.5-pro explícitoTTL de 24 horas, projetado para isso
Base de código GPT existente, sem reescritagpt-5.4-mini (status quo)~50 % de economia grátis
Agentes complexos (15+ etapas)claude-sonnet-4-5 + cache_control de 4 BP85 %+ de taxa de acertos no tráfego de agentes
Portabilidade multiprovedorGateway, qualquer modeloUm SDK, um cabeçalho de autenticação

6. Considerações de migração

Se a sua pontuação diz para mudar, três coisas a planejar:

Movimentação de dados. Os prefixos cacheados não se transferem entre provedores — cada mudança é uma partida a frio. Reserve várias horas de custo acima do normal durante o aquecimento.

Rearquitetura de prompts. O design multiponto de quebra da Anthropic incentiva uma estrutura de prompt em camadas que é, na verdade, melhor para qualquer provedor — refatorar uma vez beneficia também os caminhos não-Claude.

Cobertura por meio de um gateway. Se você não tem certeza, roteie por um Token Gateway. Você mantém a opcionalidade sem se comprometer com um único fornecedor, ao custo de um salto adicional e (dependendo do gateway) de potencialmente perder o acesso aos controles de cache específicos do fornecedor. Ver Parte 3 §9 sobre o que o gateway da Synthorai realmente faz vs as afirmações das quais você deve desconfiar.


7. O que muda ao longo do tempo

Uma nota sobre a durabilidade dessas comparações: os números deste artigo vão mudar. O cache se tornou um recurso competitivo em preço, e os provedores atualizam suas ofertas a cada poucos meses. Duas coisas a observar:

  • Extensões de TTL. A opção de 1 hora da Anthropic está em GA; o Gemini pode se estender a vários dias. Espere que a ansiedade com o TTL diminua.
  • Granularidade. OpenAI e Anthropic provavelmente reduzirão seu mínimo de 1.024 tokens em algum momento; a barra de 64 tokens da DeepSeek estabeleceu a nova expectativa.

Quando os descontos convergem, o diferencial passa a ser a ergonomia da API e a latência — não a economia de manchete.


Em breve: Parte 3 — Tutorial de cache de prompts: Python funcional pega o panorama arquitetural acima e o transforma em código executável com a tabela de latência de §3.3 reproduzida como um benchmark que você pode executar você mesmo.


Perguntas frequentes

Qual provedor de LLM tem o cache de prompts mais barato, considerando tudo? À mesma taxa de acertos (~75 %), deepseek-v4-flash para cargas de trabalho em chinês e gemini-2.5-flash implícito para inglês são os mais baratos em custo efetivo por milhão nas nossas medições de 2026-05. claude-sonnet-4-5 tem o desconto por chamada única mais profundo (~90 %), mas um preço base mais alto — ele vence quando a taxa de acertos é >85 %. Insira a sua própria taxa de acertos na fórmula de §4.1.

Por que o Gemini custa mais em cargas de trabalho de baixo volume? A taxa de armazenamento por hora dos caches explícitos consome o desconto, a menos que você consulte o cache com frequência. Para cargas de trabalho de baixo volume, use o cache implícito do Gemini (sem taxa de armazenamento, ~25 % de desconto).

Posso usar o cache_control do Claude com OpenAI? Não diretamente — são implementações de cache separadas. No endpoint compatível com OpenAI /chat/completions, o campo normalmente não tem efeito diante de modelos não-Anthropic (esses cacheiam automaticamente de qualquer forma). Para o Claude especificamente, use o endpoint nativo da Anthropic /v1/messages com os marcadores.

A arquitetura MLA da DeepSeek é proprietária? O paper (DeepSeek-AI 2024) é público. Outros provedores poderiam adotar compressão KV no estilo MLA, mas isso requer retreinar o modelo base — não é uma troca em tempo de execução. Em 2026-05, a DeepSeek continua sendo o único grande provedor que o entrega em produção.

E os modelos open source auto-hospedados? vLLM, SGLang e outros motores de inferência suportam cache de prefixo nativamente (o paper do PagedAttention é a base). Se você se auto-hospeda em H100/H200, pode implementar cache respaldado em disco com LMCache ou similar. A análise de preços aqui se aplica apenas aos serviços gerenciados — a economia da auto-hospedagem é totalmente diferente.

Por que não há provedores de API de Mistral, Cohere ou Llama nesta comparação? Suas ofertas de cache estão menos maduras em 2026-05. O cache da Mistral está em acesso antecipado; a Cohere não expõe cache explícito; os provedores de API de Llama (Groq, Together, Replicate) variam bastante. Revisitar quando seus conjuntos de recursos se estabilizarem.


Fontes: Anthropic Prompt Caching · OpenAI Prompt Caching · Google Gemini Context Caching · DeepSeek KV Cache · Alibaba Bailian Context Cache · DeepSeek-V2 / MLA paper · PagedAttention / vLLM (Kwon et al. 2023). Números medidos a partir de https://synthorai.io/v1 em 2026-05-25.

← Voltar ao blog