Qual cache de prompt para LLM é mais barato? Comparativo de 5 provedores (2026)

23 de maio de 2026 · Atualizado em 21 de julho de 2026 · prompt-cache · llm-providers · evaluation

Conteúdo

1. Uma taxonomia dos tipos de cache para LLM
1.1 Controle: explícito, implícito ou híbrido
1.2 Persistência: em memória ou com suporte em disco
1.3 Granularidade: resolução da correspondência
1.4 Modelo de objeto: marcadores por chamada ou objetos de cache nomeados
2. Análise detalhada por provedor
2.1 Anthropic Claude — Explícito, em memória, granularidade de 1,024 tokens
2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1,024 tokens
2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados
2.4 DeepSeek-v4 — Automático, com suporte em disco, granularidade de 64 tokens
2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + modo implícito
3. Comparação lado a lado
3.1 Estrutura de descontos (documentação dos fornecedores, 2026-05)
3.2 TTL, granularidade e persistência
3.3 Latência medida com um prefixo de 7K tokens (2026-05-25)
4. Framework de avaliação com 5 dimensões
4.1 Custo efetivo por milhão de tokens, ponderado pela taxa de acerto
4.2 Previsibilidade da taxa de acerto
4.3 Adequação entre TTL e cadência do tráfego
4.4 Latência quando não há acerto
4.5 Ergonomia da API e custo de migração
5. Recomendações rápidas por tipo de carga
6. Considerações sobre migração
7. O que muda ao longo do tempo
Perguntas frequentes

TL;DR — Cinco grandes provedores de LLM oferecem cache de prompt de formas bem diferentes: marcadores explícitos (Claude), operação totalmente automática (GPT-5.x, DeepSeek-v4), modelo híbrido implícito+explícito (Gemini, Qwen) ou persistência em disco viabilizada pela arquitetura (MLA do DeepSeek). Este artigo compara cada recurso e apresenta um framework de avaliação com 5 dimensões para pontuar os provedores de acordo com a sua carga: custo, previsibilidade da taxa de acerto, latência, adequação do TTL e ergonomia da API. A base arquitetural está na Parte 1: princípios de cache; as medições e o código Python funcional estão na Parte 3: tutorial.

Série: Parte 2 de 5 · Anterior: Parte 1 — Princípios de cache · Próxima: Parte 3 — Tutorial com código funcional · Parte 4 — Melhor LLM por caso de uso · Parte 5 — Integração com LangChain

1. Uma taxonomia dos tipos de cache para LLM

Antes de analisar cada provedor, precisamos definir quatro eixos de projeto:

1.1 Controle: explícito, implícito ou híbrido

Explícito — o desenvolvedor marca quais partes do prompt devem entrar no cache (cache_control do Anthropic Claude). Oferece controle máximo, mas exige alterações no código.
Implícito / automático — o provedor detecta automaticamente prefixos correspondentes (OpenAI GPT-5.x, DeepSeek-v4). Não exige mudanças no código, mas também não permite forçar um acerto.
Híbrido — os dois modos estão disponíveis e podem ser escolhidos a cada chamada (Gemini, Qwen).

1.2 Persistência: em memória ou com suporte em disco

Essa característica é determinada pela arquitetura do KV cache do provedor, não pela interface da API.

Em memória (HBM) — os caches ficam na memória da GPU, duram pouco tempo (minutos) e exigem blocos mínimos grandes (1,024 tokens). É o padrão da maioria dos provedores.
Com suporte em disco — os caches são persistidos em SSD/NVMe, com TTLs muito maiores e granularidade mais fina. O DeepSeek oferece isso em escala graças à compressão Multi-head Latent Attention (MLA), que reduz o KV cache em ~4× (DeepSeek-AI, 2024).

1.3 Granularidade: resolução da correspondência

Qual é o menor prefixo que pode receber desconto?

64 tokens — DeepSeek (a granularidade mais fina do setor)
128 tokens — OpenAI (incremento de correspondência)
1,024 tokens — menor bloco que pode ser armazenado em cache no Claude, OpenAI, Gemini e Qwen

Com granularidade mais fina, sobreposições parciais de prefixo também contam. Isso torna o cache muito mais tolerante a pequenas variações no prompt.

1.4 Modelo de objeto: marcadores por chamada ou objetos de cache nomeados

Marcadores por chamada — toda requisição inclui o conteúdo que deve ser armazenado, e o provedor calcula seu hash (Claude, OpenAI, DeepSeek, modo implícito do Qwen).
Objetos de cache nomeados — o desenvolvedor cria um cache por meio de uma chamada separada à API, recebe um cache_id e o referencia depois (modo explícito do Gemini e do Qwen). O fluxo fica mais trabalhoso, mas oferece controle explícito sobre o ciclo de vida.

Esses quatro eixos se combinam. A oferta de cada provedor pode ser descrita pela posição que ocupa em cada um deles. A próxima seção analisa os provedores individualmente.

2. Análise detalhada por provedor

2.1 Anthropic Claude — Explícito, em memória, granularidade de 1,024 tokens

Principais modelos (2026-05): claude-haiku-4-5, claude-sonnet-4-5 / 4-6, claude-opus-4-5 / 4-6 / 4-7.

Atualização do GPT-5.6 (2026-06): as regras abaixo mudaram com a família GPT-5.6. As gravações em cache agora custam 1.25x a tarifa de entrada, um prompt_cache_key passou a ser necessário para uma correspondência confiável e foram adicionados breakpoints explícitos com TTL de 30 minutos. As linhas deste artigo descrevem o comportamento do GPT-5.5/5.4; para o 5.6, consulte o guia de custos do GPT-5.6 e nossos mínimos de cache medidos.

API de cache. É possível marcar até quatro breakpoints cache_control em qualquer ponto do system prompt ou do array de mensagens. Acertos custam ~10% da tarifa-base de entrada; gravações custam 125% (um adicional de 25%). O TTL padrão é deslizante, de 5 minutos — cada acerto reinicia a contagem —, com uma opção de 1 hora.

Estrutura de preços. O Anthropic publica na página de preços as tarifas por milhão de tokens de cada modelo; o desconto de cache é uniforme em toda a família. Para um system prompt de 8,000 tokens com 100K chamadas/dia no claude-sonnet-4-5, o custo por chamada cai cerca de 8–10× depois que o prefixo está aquecido. O custo se paga depois de um único acerto.

Comportamento do TTL. O padrão é deslizante, de 5 minutos: cada acerto adia a expiração por mais 5 minutos. O TTL de 1 hora dobra o custo de gravação, mas é indispensável para cargas com intervalos ociosos superiores a 5 min.

Granularidade. Mínimo de 1,024 tokens. O hash considera a sequência exata de tokens; alterar um único caractere no início invalida todo o prefixo.

Ergonomia da API. A melhor entre os provedores. O design com múltiplos breakpoints permite armazenar separadamente o que “nunca muda”, o que “raramente muda” e o que “muda por tarefa”. É a melhor opção para agentes e cargas RAG cujas seções do prompt mudam em ritmos diferentes.

Pontos de atenção.

Sem cache_control, não há cache algum. Ao contrário do GPT ou DeepSeek, não existe fallback implícito.
O hash do cache depende da ordem, inclusive dentro de arrays de tools/functions. Ordene-os de forma determinística.
Sem um keep-alive explícito, o padrão de 5 min torna o Claude inadequado para jobs em batch esporádicos.
Se você acessa o Claude por um gateway, confirme se ele aceita o endpoint nativo /v1/messages do Anthropic com marcadores cache_control (o endpoint compatível com OpenAI /chat/completions geralmente não os encaminha; use o SDK do Anthropic apontando para a URL-base do gateway).

Melhor uso. Agentes com contexto longo, chats multiturno com system prompts estáveis e RAG estruturado com cache em camadas.

2.2 OpenAI GPT-5.x — Automático, em memória, granularidade de 1,024 tokens

Principais modelos (2026-05): gpt-5.4-nano, gpt-5.4-mini, gpt-5.2, gpt-5.4-pro, gpt-5.5-pro. Variantes Codex para código: gpt-5.2-codex, gpt-5.3-codex.

API de cache. Não é preciso fazer nada: o cache é automático em toda requisição com ≥1,024 tokens. Acertos custam 50% da tarifa de entrada, sem adicional de gravação. O incremento de correspondência é de 128 tokens.

Estrutura de preços. A OpenAI publica na página de preços as tarifas por milhão de tokens. A entrada armazenada em cache tem desconto de 50%; a saída não muda.

Medições (2026-05-25, system prompt com ~6,900 tokens):

Modelo	Custo total sem acerto	Custo total com acerto	Taxa de cache no acerto	TTFT com streaming no acerto
`gpt-5.4-nano`	$0.00131	$0.00074 (−44%)	5,888 / 6,887 (85%)	1.00 s
`gpt-5.4-mini`	$0.00267	$0.00257*	6,400 / 6,887 (93%)	0.73 s

* A resposta da execução com acerto do gpt-5.4-mini foi muito menor que a da execução sem acerto; por isso, a diferença de custo combina o desconto do cache com a variação no tamanho da resposta. A queda de 5× na latência (3.63 → 0.73 s) é o indicador mais confiável.

Comportamento do TTL. O valor exato não é documentado. Relatos de uso indicam de 5–60 minutos, dependendo da carga e da popularidade do prefixo. Prefixos compartilhados e populares duram mais, pois o LRU os favorece.

Ergonomia da API. Simples: o código existente continua funcionando. Registre prompt_tokens_details.cached_tokens para medir a taxa de acerto.

Pontos de atenção.

Não é possível forçar um acerto. Se o tráfego gera prefixos únicos, não há benefício.
O desconto de 50% é menor que os 90/75% do Claude/DeepSeek (e que os ~75% do modo implícito do Gemini).
Em streaming, o acerto do cache às vezes só aparece no chunk final. Faça a instrumentação com cuidado e envie stream_options={"include_usage": True}.

Melhor uso. Bases de código que já usam GPT e cujo custo de adaptação supera a economia marginal. Tráfego em rajadas com alta repetição natural de prefixos.

2.3 Google Gemini — Híbrido, em memória, objetos de cache nomeados

Principais modelos (2026-05): gemini-2.5-flash, gemini-2.5-pro, gemini-3-flash-preview, gemini-3.1-pro-preview, gemini-3.1-flash-lite-preview.

API de cache. Há dois modos:

Implícito: automático, como no GPT. Tokens em cache custam ~25% da tarifa de entrada. Sem taxa de armazenamento e sem configuração.
Explícito: cria um objeto cachedContent por meio de uma chamada separada à API. As requisições seguintes o referenciam pelo nome. Tokens em cache custam ~10%, uma tarifa menor, mas há uma taxa de armazenamento por hora e por milhão de tokens.

Estrutura de preços. Contextos longos são o ponto forte do Gemini; o preço varia por categoria de tamanho do contexto, com tarifas por token maiores acima do limite de 200K em relação aos contextos abaixo de 200K.

Medições (2026-05-25):

Modelo	Custo sem acerto	Custo com acerto (streaming)	Taxa de cache no acerto
`gemini-2.5-flash`	$0.00198	$0.00024 (−88%)	7,140 / 7,322 (97%)
`gemini-2.5-pro`	$0.00824	$0.00205 (−75%)	6,120 / 7,328 (84%)

Comportamento do TTL. Implícito: dura minutos, sem valor divulgado. Explícito: definido pelo desenvolvedor, com padrão de 1 hora e máximo de 24 horas.

Ergonomia da API. O cache explícito exige um fluxo em 2 etapas (criar → referenciar). O ciclo de vida do cachedContent — criação, atualização do TTL e exclusão — fica sob sua responsabilidade.

Pontos de atenção.

A taxa de armazenamento inviabiliza caches explícitos com baixo volume. Sempre calcule o ponto de equilíbrio de acordo com a frequência das chamadas.
A taxa de acerto do cache implícito varia; não baseie a previsão de custos nela.
Os objetos de cache ficam vinculados a uma região. Aplicações multirregião precisam duplicá-los.
O gemini-*-pro é um modelo de reasoning: com max_tokens baixo, a geração é consumida pelo raciocínio oculto e você verá completion_tokens=0. Use max_tokens ≥256 em qualquer fluxo voltado ao usuário.

Melhor uso. Um único documento grande (>20K tokens) consultado mais de 10 vezes por hora. Perguntas e respostas sobre vídeo. RAG multimodal sobre PDFs corporativos.

2.4 DeepSeek-v4 — Automático, com suporte em disco, granularidade de 64 tokens

Principais modelos (2026-05): deepseek-v4-flash (uso geral), deepseek-v4-flash (nesta geração, também atende cargas de código).

API de cache. Automática, como no GPT, mas baseada na compressão MLA, que torna o cache compacto o bastante para persistir em disco. Acertos custam ~25% da tarifa de entrada, sem adicional de gravação. Correspondência mínima: 64 tokens.

Estrutura de preços. As tarifas da página de preços do DeepSeek são denominadas em yuan. Na prática, um acerto reduz o custo de entrada em aproximadamente 75%.

Medições (2026-05-25):

Modelo	Custo sem acerto	Custo com acerto	Taxa de cache no acerto	TTFT no acerto
`deepseek-v4-flash`	$0.00091	$0.00023 (−74%)	6,784 / 7,101 (96%)	2.93 s

Comportamento do TTL. Horas, às vezes mais para prefixos com muito tráfego. O armazenamento em disco permite que os caches sobrevivam à pressão sobre a memória da GPU, que causaria a remoção de caches em memória nos demais provedores.

Granularidade. O mínimo de 64 tokens é o menor do setor. Pequenas alterações no prompt preservam a correspondência da maior parte do prefixo, em vez de invalidá-lo por completo como ocorre nos provedores com blocos de 1,024 tokens.

Ergonomia da API. API no formato da OpenAI; basta trocar a URL-base. Usa o campo padrão prompt_tokens_details.cached_tokens.

Pontos de atenção.

Funciona apenas com modelos da família DeepSeek. Não há como usar esse cache com outras famílias.
A qualidade em inglês é excelente, mas fica atrás de Claude/GPT-5.x nos benchmarks de reasoning mais difíceis.

Melhor uso. Cargas em chinês, pelo custo. Cargas com prefixos muito frequentes nas quais a granularidade é importante, como RAG com ordem de recuperação instável. Jobs em batch sensíveis a custo.

2.5 Alibaba Qwen3 — Híbrido, em memória, objetos de cache nomeados + modo implícito

Principais modelos (2026-05): qwen3-max, qwen3.5-plus, qwen3.5-flash. Variantes com visão: qwen3-vl-plus, qwen3-vl-flash.

API de cache. Há dois modos:

Implícito: sempre ativo, como no GPT. A parte armazenada em cache custa ~20% da tarifa de entrada.
Explícito: cria um cache pela API com TTL personalizado. Acertos custam ~10%; gravações, 125%.

Medições (2026-05-25):

Modelo	Custo sem acerto	Custo com acerto	Taxa de cache no acerto	TTFT no acerto	Observações
`qwen3-max`	$0.00553	$0.00549	7,040 / 7,234 (97%)	1.53 s	O acerto foi informado, mas o campo de custo do gateway não refletiu o desconto nessa data (valide em produção)

Comportamento do TTL. O padrão é 5 minutos, configurável por objeto de cache. O modo explícito usa janela deslizante; o implícito, um TTL fixo curto.

Ergonomia da API. O modo implícito segue o formato do GPT e não exige trabalho adicional. O explícito usa um fluxo em 2 etapas com gerenciamento do ciclo de vida do cache.

Pontos de atenção.

No momento, apenas qwen3-max e qwen3.5-plus aceitam cache explícito.
A disponibilidade multirregião, em Singapura e nos EUA, está sendo liberada gradualmente. Confirme a região antes de depender do serviço para dados fora da China.
A documentação tem mais lacunas que as do Anthropic e da OpenAI. Recomendamos testes empíricos.

Melhor uso. Cargas corporativas em chinês que exigem controle preciso do cache. Clientes que já usam Alibaba Cloud.

3. Comparação lado a lado

3.1 Estrutura de descontos (documentação dos fornecedores, 2026-05)

Provedor	Adicional de gravação no cache	Tarifa de entrada em cache	Desconto efetivo
Anthropic Claude	+25%	10% da tarifa-base	~90% de desconto
OpenAI GPT-5.5 / 5.4	nenhum	50% da tarifa-base	50% de desconto
Google Gemini (implícito)	nenhum	~25% da tarifa-base	~75% de desconto
Google Gemini (explícito)	nenhum, mas há taxa de armazenamento por hora	~10% da tarifa-base	~90% de desconto após amortização
DeepSeek-v4	nenhum	~25% da tarifa-base	~75% de desconto
Alibaba Qwen3 (implícito)	nenhum	~20% da tarifa-base	~80% de desconto
Alibaba Qwen3 (explícito)	+25%	~10% da tarifa-base	~90% de desconto

3.2 TTL, granularidade e persistência

Provedor	TTL padrão	TTL máximo	Persistência	Unidade mínima de correspondência
Claude	5 min, deslizante	1 hora	Em memória (HBM)	1,024 tok
GPT-5.5 / 5.4	~5 min	~60 min	Em memória (HBM)	1,024 tok / incremento de 128 tok
Gemini (implícito)	minutos	não divulgado	Em memória	1,024 tok
Gemini (explícito)	1 hora	24 horas	Em memória	1,024 tok
DeepSeek-v4	horas	horas+	Disco (SSD)	64 tok
Qwen3	5 min	configurável	Em memória	~1,024 tok

3.3 Latência medida com um prefixo de 7K tokens (2026-05-25)

Provedor / modelo	Total sem acerto	TTFT com acerto (streaming)	Ganho de latência
`claude-haiku-4-5` †	~3.0 s	1.31 s	~2×
`claude-sonnet-4-5` †	~2.0 s	1.76 s	~1.2×
`claude-opus-4-5` †	~2.2 s	2.08 s	~1.05×
`gpt-5.4-mini`	~3.6 s	0.73 s	~5×
`gpt-5.4-nano`	~2.2 s	1.00 s	~2×
`gemini-2.5-flash`	~2.5 s	~1.4 s	~1.8×
`gemini-2.5-pro`	~3.0 s	~1.8 s	~1.7×
`deepseek-v4-flash`	~4.0 s	2.93 s	~1.4×
`qwen3-max`	~4.8 s	1.53 s	~3×

† As linhas do Claude foram medidas com marcadores cache_control pelo endpoint nativo /v1/messages do Anthropic (consulte a Parte 3 §2). O maior ganho do Claude está no custo, com desconto de ~88–89% sobre a entrada; consulte a Parte 3 §2 para ver a tabela completa de custos. Segundo os números publicados pelo Anthropic, a redução de TTFT cresce muito em prompts com 100K+ tokens.

Uma única execução sequencial, sem carga concorrente. Os resultados variam conforme a região, o horário e a carga dos demais tenants.

4. Framework de avaliação com 5 dimensões

Chamadas como “Claude economiza 90%” chamam atenção, mas raramente ajudam a escolher. Pontue cada provedor nestas cinco dimensões de acordo com a sua carga e aplique pesos com base no que importa para você.

4.1 Custo efetivo por milhão de tokens, ponderado pela taxa de acerto

Não compare os preços-base. Compare o custo esperado com a sua taxa real de acerto. Insira seus números na calculadora de custos de LLM ou consulte a comparação atualizada de preços de LLMs entre provedores:

effective_cost = base × (1 - hit_rate × (1 - discount)) + write_premium × write_rate

Exemplo com 70% de repetição do prefixo, comum em chatbots:

Claude: ~90% de desconto × 0.7 de acerto + 25% de gravação × 0.3 → efetivo ≈ base × 0.45
GPT-5.5: ~50% × 0.7 + 0 → efetivo ≈ base × 0.65
Gemini implícito: ~75% × 0.7 + 0 → efetivo ≈ base × 0.48
DeepSeek-v4: ~75% × 0.7 + 0 → efetivo ≈ base × 0.48

Multiplique pela tarifa-base real de cada fornecedor, que varia entre os provedores, para obter valores comparáveis em dólar. Pontuação: calcule effective_cost para a sua carga; quanto menor, melhor.

4.2 Previsibilidade da taxa de acerto

Caches explícitos (Claude, Qwen explícito, Gemini explícito) — alta previsibilidade. Se você marcou e o TTL ainda é válido, haverá acerto.
Caches automáticos (GPT-5.x, DeepSeek-v4, Gemini implícito, Qwen implícito) — dependem da semelhança do prefixo e da carga do provedor, devido à remoção por LRU.

Para SLAs vinculados a custo, prefira o modo explícito. Para uma otimização sem garantia, o automático é suficiente.

4.3 Adequação entre TTL e cadência do tráfego

Padrão de tráfego	Requisito
Contínuo (segundos entre chamadas)	O padrão de qualquer provedor funciona
Vinculado à sessão (minutos)	TTL de 5–60 min (Claude, GPT-5.x, Qwen)
Em rajadas (horas entre rajadas)	TTL de 1 hora ou mais (Claude 1h, Gemini explícito, DeepSeek-v4)
Esporádico (consultas por dia)	TTL de 24 horas (Gemini explícito) ou aceitar gravações a frio

4.4 Latência quando não há acerto

Um provedor rápido nos acertos, mas lento quando o cache falha, continua sendo problemático se a taxa de acerto não for alta. Compare os dois números da §3.3 e pondere-os pela taxa de acerto esperada.

4.5 Ergonomia da API e custo de migração

Menor esforço de migração: GPT-5.x ↔ DeepSeek-v4 (ambos seguem o formato da OpenAI e usam cache automático).
Médio: GPT-5.x → Gemini implícito (SDK diferente, sem código de cache para reescrever).
Alto: GPT-5.x → Claude (é preciso adicionar cache_control e reorganizar as camadas do prompt).
Mais alto: sair de um único provedor para vários sem usar gateway (múltiplas APIs de cache).

5. Recomendações rápidas por tipo de carga

Carga	Escolha	Motivo
Chat em inglês, usuários globais	`claude-haiku-4-5` ou `gpt-5.4-nano`	Desconto alto de cache + modelo pequeno e rápido
Chat em chinês, China continental	`deepseek-v4-flash` ou `qwen3.5-flash`	Cache com duração de horas + baixo custo em chinês
RAG em inglês (alta qualidade)	`claude-sonnet-4-5` + múltiplos breakpoints	Estrutura de prompt em camadas aproveita melhor o cache
RAG em chinês (sensível a custo)	`deepseek-v4-flash`	A granularidade de 64 tokens tolera mudanças na ordem da recuperação
Perguntas sobre documentos longos (uso esporádico)	`gemini-2.5-pro` explícito	TTL de 24 horas, projetado para esse caso
Base existente em GPT, sem reescrita	`gpt-5.4-mini` (manter como está)	Economia de ~50% sem esforço
Agentes complexos (15+ etapas)	`claude-sonnet-4-5` + `cache_control` com 4 breakpoints	Taxa de acerto de 85%+ no tráfego de agentes
Portabilidade entre provedores	Gateway, qualquer modelo	Um SDK, um header de autenticação

6. Considerações sobre migração

Se a pontuação indicar uma troca, planeje estes três pontos:

Movimentação de dados. Prefixos armazenados em cache não são transferidos entre provedores; toda troca começa com cache frio. Reserve orçamento para algumas horas de custo acima do normal durante o aquecimento.

Reestruturação dos prompts. O design do Anthropic com múltiplos breakpoints incentiva uma estrutura de prompt em camadas que também funciona melhor nos outros provedores. Refatorar uma vez beneficia até os fluxos que não usam Claude.

Redução de risco com um gateway. Se ainda houver dúvida, roteie pelo Token Gateway. Você mantém a liberdade de trocar de provedor sem se comprometer com um único fornecedor, ao custo de um salto adicional e, dependendo do gateway, da possível perda de controles de cache específicos do fornecedor. Consulte a Parte 3 §9 para ver o que o gateway da Synthorai realmente faz e quais alegações devem ser vistas com cautela.

7. O que muda ao longo do tempo

Os números deste artigo vão mudar. O cache virou um recurso importante na competição por preço, e os provedores atualizam suas ofertas a cada poucos meses. Acompanhe principalmente dois pontos:

Extensões de TTL. A opção de 1 hora do Anthropic já está disponível de forma geral; o Gemini pode chegar a vários dias. A preocupação com TTL tende a diminuir.
Granularidade. OpenAI e Anthropic provavelmente vão reduzir em algum momento o mínimo de 1,024 tokens; o limite de 64 tokens do DeepSeek estabeleceu um novo patamar.

Quando os descontos convergirem, os diferenciais serão a ergonomia da API e a latência, não a economia anunciada.

Próximo artigo: a Parte 3 — Tutorial de cache de prompt: Python funcional transforma a visão arquitetural acima em código executável e reproduz a tabela de latência da §3.3 como um benchmark que você pode rodar.

Perguntas frequentes

Considerando todos os fatores, qual provedor de LLM tem o cache de prompt mais barato? Com a mesma taxa de acerto (~75%), nossas medições de 2026-05 mostram que deepseek-v4-flash para cargas em chinês e o modo implícito do gemini-2.5-flash para inglês têm o menor custo efetivo por milhão. O claude-sonnet-4-5 oferece o maior desconto por chamada (~90%), mas sua tarifa-base é mais alta; ele passa a ser a melhor opção quando a taxa de acerto supera 85%. Insira sua própria taxa de acerto na fórmula da §4.1.

Por que o Gemini custa mais em cargas de baixo volume? A taxa de armazenamento por hora dos caches explícitos consome o desconto quando o cache não é consultado com frequência. Para cargas de baixo volume, use o cache implícito do Gemini, sem taxa de armazenamento e com desconto de ~25%.

Posso usar o cache_control do Claude com a OpenAI? Não diretamente: são implementações de cache separadas. No endpoint compatível com OpenAI /chat/completions, o campo normalmente não tem efeito em modelos que não são do Anthropic — esses modelos já usam cache automático. Para o Claude, use o endpoint nativo /v1/messages do Anthropic com os marcadores.

A arquitetura MLA do DeepSeek é proprietária? O artigo (DeepSeek-AI 2024) é público. Outros provedores poderiam adotar uma compressão de KV no estilo MLA, mas isso exige retreinar o modelo-base; não é uma opção que pode ser ativada em runtime. Em 2026-05, o DeepSeek continua sendo o único grande provedor a oferecer essa arquitetura em produção.

E os modelos open source hospedados pelo próprio usuário? vLLM, SGLang e outros engines de inferência aceitam cache de prefixo nativamente, com base no artigo do PagedAttention. Se você hospeda o modelo em H100s/H200s, pode implementar cache com suporte em disco usando LMCache ou uma solução semelhante. A análise de preços deste artigo se aplica apenas a serviços gerenciados; a economia da hospedagem própria é completamente diferente. Para rotear entre vários provedores sem operar o router, uma alternativa gerenciada ao LiteLLM mantém uma única API sobre os mesmos provedores sem perder o cache. O cache de prompt para LLMs de pesos abertos mapeia quais modelos usam cache em cada serviço e quais hosts oferecem esse recurso como produto.

Por que Mistral, Cohere e provedores de API do Llama não aparecem nesta comparação? Em 2026-05, as ofertas de cache desses provedores ainda são menos maduras. O cache do Mistral está em acesso antecipado; o Cohere não oferece cache explícito; e os provedores de API do Llama, como Groq, Together e Replicate, variam bastante. Vale reavaliá-los quando esses recursos se estabilizarem.

Fontes: Cache de prompt do Anthropic · Cache de prompt da OpenAI · Cache de contexto do Google Gemini · KV cache do DeepSeek · Cache de contexto do Alibaba Bailian · Artigo sobre DeepSeek-V2 / MLA · PagedAttention / vLLM (Kwon et al. 2023). Valores medidos em https://synthorai.io/v1 em 2026-05-25.

← Voltar ao blog