O novo tokenizer do Claude Sonnet 5: 41% mais tokens por prompt

1 de julho de 2026 · claude-sonnet-5 · prompt-cache · cost · model-update

Conteúdo

Disponibilidade
Preço: barato agora, de volta à tarifa do Sonnet 4.6 em setembro
Cache e TTL: encaixe direto
A pegadinha da contagem de tokens
Sonnet 5 vs Opus 4.8: a vantagem que fica
Checklist de migração
Resumo
FAQ

O claude-sonnet-5 já está no ar no gateway da Synthorai e, por enquanto, sai barato: US$ 2 / US$ 10 por milhão de tokens de input / output, ou seja, 2,5× abaixo do Opus 4.8 e abaixo do Sonnet 4.6. Aproveite enquanto dura. Esse é o preço promocional até 31 de agosto de 2026; em 1º de setembro a tarifa volta para US$ 3 / US$ 15, o mesmo do Sonnet 4.6.

Se você usa cache na linha Claude, o contrato de caching e TTL é aproveitado sem mudança nenhuma. O ponto que exige atenção é o custo, e o motivo é como o Sonnet 5 conta tokens. Ele vem com um tokenizer novo que transforma o mesmo texto em inglês em cerca de 41% mais tokens de input que o Sonnet 4.6, e é a contagem de tokens que define o que você paga e o que te limita. O preço de tabela é só metade da conta.

Veja o que essa mudança de tokens afeta, antes mesmo de entrar qualquer alteração de código ou questão de qualidade:

Custo por prompt. Na tarifa padrão, o mesmo prompt em inglês custa cerca de 41% a mais que no Sonnet 4.6, já que o texto idêntico é cobrado como mais tokens ao mesmo preço por token.
Toda estimativa baseada em tokens. Um orçamento por chamada, ou uma contagem de tokenizer local, dimensionado para o 4.6 fica cerca de 40% abaixo no Sonnet 5. Meça o usage real, não um palpite local.
Margem na janela de contexto. O mesmo documento consome cerca de 41% a mais da janela, então chamadas de long-context e RAG cabem menos texto real por requisição.
Rate limits. Um limite de tokens por minuto se esgota cerca de 41% mais rápido para a mesma carga, reduzindo o throughput.
Elegibilidade de cache (uma pequena vantagem). O mínimo de 1.024 tokens fica mais fácil de atingir, então um prefixo que ficava logo abaixo dele no 4.6 pode passar a ser cacheável no Sonnet 5.

O restante do post coloca números medidos em cada ponto: preço, a economia do caching e a mudança na contagem de tokens.

Preços, caching, TTL e contagem de tokens medidos contra https://synthorai.io/ (/v1/messages nativo da Anthropic) em 2026-07-01. Os preços por token vêm do custo em usage de chamadas reais; as tarifas promocional/padrão e a data de expiração em 31 de agosto são do anúncio da Anthropic. Reproduza com seu próprio prompt antes de citar.

Disponibilidade

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

Troque o campo model e nada no seu caminho de caching muda. A mecânica por trás do cache_control está no tutorial de caching; a arquitetura que explica por que o cache existe está na Parte 1 da série.

Preço: barato agora, de volta à tarifa do Sonnet 4.6 em setembro

Preço por token no gateway, derivado do custo em usage de chamadas simples (sem cache):

Modelo	Input ($/M)	Output ($/M)
`claude-sonnet-5` (introdutório, até 31 de ago)	$2.00	$10.00
`claude-sonnet-5` (padrão, a partir de 1 de set)	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

A tarifa introdutória é um desconto de verdade, e contra o Opus 4.8 essa é a parte que se mantém: mesmo no valor padrão de $3 / $15, o Sonnet 5 continua mais barato que o Opus. Além disso, os dois compartilham o mesmo tokenizer (mais sobre isso abaixo), então a comparação é limpa nos dois preços.

Contra o Sonnet 4.6 o desconto é temporário. Em 1 de setembro o preço de tabela fica idêntico, então qualquer plano baseado no “Sonnet 5 é mais barato que o 4.6” a partir do número de hoje acaba junto com a promoção. E, como mostra a próxima seção, com o mesmo preço de tabela o Sonnet 5 é na verdade o mais caro dos dois para o mesmo texto.

Não publicamos benchmarks de capacidade que não rodamos; se a qualidade do Sonnet 5 justifica o custo em relação ao 4.6 é o seu eval, não o nosso.

Cache e TTL: encaixe direto

O contrato de cache é idêntico ao do resto da linha Claude. Rodamos uma sequência de escrita a frio / leitura a quente com um prefixo estável de 2,2K tokens, variando a mensagem do usuário a cada chamada para que nenhum cache no nível da resposta contaminasse o resultado. Custo por turno quente, no preço introdutório atual:

Modelo	Turno frio (cache write)	Turno quente (cache read)	Frio → quente
`claude-sonnet-5` (introdutório)	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

Os invariantes se mantêm como em toda a linha Opus:

Desconto de leitura ≈ 90%. Uma leitura de cache quente custa cerca de 10% do preço de input, batendo com a economia documentada pela Anthropic de “até 90%” em leituras com cache. O ponto de equilíbrio é um acerto.
TTL de 1 hora funciona igual. cache_control: {"type": "ephemeral", "ttl": "1h"} é aceito no Sonnet 5, e o objeto usage separa os buckets como antes: cache_creation.ephemeral_5m_input_tokens vs ephemeral_1h_input_tokens. O prêmio de escrita de 1 hora é cerca de 2× o valor sem cache (contra cerca de 1,25× na escrita de 5 minutos); as leituras ficam em ≈10% independente do TTL.

Uma ressalva sobre a tabela: aqueles valores por turno quente são na tarifa introdutória. A partir de 1 de setembro, multiplique os números do Sonnet 5 por 1,5× ($2 → $3 input, $10 → $15 output). Um turno quente do Sonnet 5 que custa $0.0017 hoje fica em cerca de $0.0026 em setembro, ainda abaixo dos $0.0043 do Opus 4.8, mas não mais abaixo do Sonnet 4.6.

A pegadinha da contagem de tokens

Tem um detalhe que faz o reajuste de setembro doer duas vezes. O mesmo texto de sistema reporta cerca de 41% mais tokens de input no Sonnet 5 do que no Sonnet 4.6.

Modelo	Tokens de input (texto idêntico)	Custo de input no preço padrão
`claude-sonnet-4-6`	1,594	$0.0048
`claude-sonnet-5`	2,245	$0.0067
`claude-opus-4-8`	2,245	$0.0112

O Sonnet 5 tokeniza o mesmo prompt em inglês como 2,245 tokens, o mesmo número que o Opus 4.8 reporta, e bem acima dos 1,594 do Sonnet 4.6. O Sonnet 5 saiu com o tokenizer mais novo que a linha Opus adotou no 4.7.

Juntando o preço e a contagem de tokens, o quadro fica claro:

No período de introdução, o aumento de 41% nos tokens é compensado pela tarifa 33% menor ($2 vs $3), então o mesmo prompt sem cache custa mais ou menos o que custava no 4.6, e turnos warm saem mais baratos graças ao output com desconto.
A partir de 1º de setembro, a tarifa se iguala à do 4.6, mas a contagem de tokens não. O mesmo prompt em inglês custa cerca de 41% mais no Sonnet 5 do que no Sonnet 4.6 ($0.0067 vs $0.0048 para este prefixo), porque o texto idêntico é simplesmente contado como mais tokens ao mesmo preço por token.

Contra o Opus 4.8 não existe essa pegadinha: o tokenizer é o mesmo (2,245 = 2,245), então o Sonnet 5 é claramente mais barato tanto na tarifa de introdução (2,5×) quanto na tarifa padrão (1,67×).

Então faça o orçamento pela conta de setembro, não pela de julho: a tarifa por token sobe 1,5× em 1º de setembro, e a contagem maior de tokens já está embutida hoje. E leia cache_creation_input_tokens / cache_read_input_tokens da resposta ao vivo, em vez de um tokenizer local que talvez ainda esteja com o vocabulário antigo.

Sonnet 5 vs Opus 4.8: a vantagem que fica

Essa é a comparação que o lançamento muda de vez. Sonnet 5 e Opus 4.8 compartilham o tokenizer, então em qualquer prompt as contagens de tokens são idênticas e a diferença de custo é puramente a tarifa: 2,5× mais barato no preço de introdução, 1,67× mais barato no preço padrão, tanto em turnos cold quanto warm, em input e output. Um turno warm com cache hoje custa $0.0017 vs $0.0043; mesmo em setembro fica em torno de $0.0026 vs $0.0043.

Num loop de agente com alto volume de caching, onde o prefixo se repete a cada turno, essa diferença acumula. A decisão é a de sempre: rode sua própria avaliação e, se o Sonnet 5 passar do seu limiar de qualidade, a matemática do gateway favorece ele de forma duradoura, não só até agosto. Se não passar, o Opus 4.8 está a um campo model de distância com o mesmo código de caching.

Checklist de migração

✅ O código de caching passa igualzinho. Marcadores cache_control, número de breakpoints, ttl: "1h", nomes dos campos de usage, tudo idêntico à linha Opus.
✅ As escolhas de TTL passam iguais. 5m para cargas live/sessão, 1h para trabalho em rajadas ou de agente com pausas.
✅ A economia de desconto passa igual. ≈90% na leitura, ≈1,25× na escrita (5m), ≈2× na escrita (1h).
⚠️ Marque 1º de setembro no orçamento. A tarifa de introdução acaba em 31 de agosto; o Sonnet 5 vai para $3 / $15. Modele o salto de 1,5× antes que ele chegue.
⚠️ Meça de novo a contagem de tokens (se você vem do 4.6 ou anterior). Mesmo texto, cerca de 41% mais tokens no Sonnet 5. No preço padrão isso deixa o mesmo prompt mais caro que no 4.6, não mais barato.
⚠️ Confie no objeto usage ao vivo. Leia *_input_tokens e cost da resposta, não de uma estimativa em cache da geração antiga.

Resumo

O Sonnet 5 é um bom negócio, mas com prazo. Contra o Opus 4.8, ele fica de forma duradoura entre 1,67× e 2,5× mais barato, com um caminho de caching que você adota sem mudar código. Isso o torna a primeira coisa óbvia para avaliar em qualquer workload de Opus que não seja crítico em qualidade. Contra o Sonnet 4.6 a vantagem é só o desconto de introdução: em 1º de setembro o preço iguala o do 4.6, e o novo tokenizer faz o mesmo prompt custar mais. Aproveite o desconto, mas dimensione o orçamento pelos números de setembro e confirme suas contagens de token contra o objeto usage ao vivo antes de prometer qualquer coisa ao financeiro.

Para o guia completo de caching, veja a série de quatro partes que começa em How KV Cache & TTL Work e o tutorial em Python funcional.

FAQ

O Sonnet 5 é mais barato que o Sonnet 4.6? Só durante o período de introdução. Até 31 de agosto de 2026 são $2 / $10 contra os $3 / $15 do 4.6. A partir de 1º de setembro passa a $3 / $15, a mesma tarifa. E como o mesmo texto conta cerca de 41% mais tokens no Sonnet 5, no preço padrão o mesmo prompt sai mais caro do que no 4.6.

Quando termina o preço de introdução? Em 31 de agosto de 2026, segundo o anúncio da Anthropic. Em 1º de setembro a tarifa vira $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída.

Quanto mais barato o Sonnet 5 é em relação ao Opus 4.8? 2,5× na tarifa de introdução, 1,67× na tarifa padrão, tanto na entrada quanto na saída. Eles compartilham o tokenizer, então as contagens de token batem e a diferença é puramente a tarifa, nos dois preços.

Preciso mudar meu código de cache_control? Não. A sintaxe do marcador, o limite de breakpoints e as opções de TTL são idênticos aos da linha Opus. Troque o campo model e mais nada. Leituras quentes custam ≈10% do preço de entrada; a escrita de 1 hora é ≈2× do sem cache, e a de 5 minutos ≈1,25×.

O Sonnet 5 é um substituto direto do Opus 4.8? No que toca a caching, TTL e custo, a migração é trivial e ele é mais barato nos dois preços. Na qualidade, rode sua própria avaliação; não publicamos benchmarks de capacidade que não rodamos. Para afirmações sobre qualidade do modelo, veja o model card da Anthropic.

Verificação: preço, caching, TTL e contagens de token medidos contra https://synthorai.io/ em 2026-07-01 usando o caminho nativo da Anthropic /v1/messages, tenant único. Os preços por token derivam do custo do usage em chamadas simples; o custo por turno é uma mediana de amostra pequena com um prefixo em cache de 2,2K tokens e reflete a tarifa de introdução atual. O preço de introdução e a expiração em 31 de agosto de 2026 vêm do anúncio do Sonnet 5 da Anthropic; as razões de desconto/prêmio foram cruzadas com a documentação de Prompt Caching da Anthropic. Seus números vão variar conforme prompt, região e carga.

← Voltar ao blog