O novo tokenizer do Claude Sonnet 5: 41% mais tokens por prompt
Conteúdo
O claude-sonnet-5 já está no ar no gateway da Synthorai e, por enquanto, sai barato: US$ 2 / US$ 10 por milhão de tokens de input / output, ou seja, 2,5× abaixo do Opus 4.8 e abaixo do Sonnet 4.6. Aproveite enquanto dura. Esse é o preço promocional até 31 de agosto de 2026; em 1º de setembro a tarifa volta para US$ 3 / US$ 15, o mesmo do Sonnet 4.6.
Se você usa cache na linha Claude, o contrato de caching e TTL é aproveitado sem mudança nenhuma. O ponto que exige atenção é o custo, e o motivo é como o Sonnet 5 conta tokens. Ele vem com um tokenizer novo que transforma o mesmo texto em inglês em cerca de 41% mais tokens de input que o Sonnet 4.6, e é a contagem de tokens que define o que você paga e o que te limita. O preço de tabela é só metade da conta.
Veja o que essa mudança de tokens afeta, antes mesmo de entrar qualquer alteração de código ou questão de qualidade:
- Custo por prompt. Na tarifa padrão, o mesmo prompt em inglês custa cerca de 41% a mais que no Sonnet 4.6, já que o texto idêntico é cobrado como mais tokens ao mesmo preço por token.
- Toda estimativa baseada em tokens. Um orçamento por chamada, ou uma contagem de tokenizer local, dimensionado para o 4.6 fica cerca de 40% abaixo no Sonnet 5. Meça o
usagereal, não um palpite local. - Margem na janela de contexto. O mesmo documento consome cerca de 41% a mais da janela, então chamadas de long-context e RAG cabem menos texto real por requisição.
- Rate limits. Um limite de tokens por minuto se esgota cerca de 41% mais rápido para a mesma carga, reduzindo o throughput.
- Elegibilidade de cache (uma pequena vantagem). O mínimo de 1.024 tokens fica mais fácil de atingir, então um prefixo que ficava logo abaixo dele no 4.6 pode passar a ser cacheável no Sonnet 5.
O restante do post coloca números medidos em cada ponto: preço, a economia do caching e a mudança na contagem de tokens.
Preços, caching, TTL e contagem de tokens medidos contra
https://synthorai.io/(/v1/messagesnativo da Anthropic) em 2026-07-01. Os preços por token vêm do custo emusagede chamadas reais; as tarifas promocional/padrão e a data de expiração em 31 de agosto são do anúncio da Anthropic. Reproduza com seu próprio prompt antes de citar.
Disponibilidade
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-sonnet-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # cache_creation_input_tokens, cache_read_input_tokens, cost
Troque o campo model e nada no seu caminho de caching muda. A mecânica por trás do cache_control está no tutorial de caching; a arquitetura que explica por que o cache existe está na Parte 1 da série.
Preço: barato agora, de volta à tarifa do Sonnet 4.6 em setembro
Preço por token no gateway, derivado do custo em usage de chamadas simples (sem cache):
| Modelo | Input ($/M) | Output ($/M) |
|---|---|---|
claude-sonnet-5 (introdutório, até 31 de ago) | $2.00 | $10.00 |
claude-sonnet-5 (padrão, a partir de 1 de set) | $3.00 | $15.00 |
claude-sonnet-4-6 | $3.00 | $15.00 |
claude-opus-4-8 | $5.00 | $25.00 |
A tarifa introdutória é um desconto de verdade, e contra o Opus 4.8 essa é a parte que se mantém: mesmo no valor padrão de $3 / $15, o Sonnet 5 continua mais barato que o Opus. Além disso, os dois compartilham o mesmo tokenizer (mais sobre isso abaixo), então a comparação é limpa nos dois preços.
Contra o Sonnet 4.6 o desconto é temporário. Em 1 de setembro o preço de tabela fica idêntico, então qualquer plano baseado no “Sonnet 5 é mais barato que o 4.6” a partir do número de hoje acaba junto com a promoção. E, como mostra a próxima seção, com o mesmo preço de tabela o Sonnet 5 é na verdade o mais caro dos dois para o mesmo texto.
Não publicamos benchmarks de capacidade que não rodamos; se a qualidade do Sonnet 5 justifica o custo em relação ao 4.6 é o seu eval, não o nosso.
Cache e TTL: encaixe direto
O contrato de cache é idêntico ao do resto da linha Claude. Rodamos uma sequência de escrita a frio / leitura a quente com um prefixo estável de 2,2K tokens, variando a mensagem do usuário a cada chamada para que nenhum cache no nível da resposta contaminasse o resultado. Custo por turno quente, no preço introdutório atual:
| Modelo | Turno frio (cache write) | Turno quente (cache read) | Frio → quente |
|---|---|---|---|
claude-sonnet-5 (introdutório) | $0.0069 | $0.0017 | 4.0× |
claude-sonnet-4-6 | $0.0079 | $0.0024 | 3.3× |
claude-opus-4-8 | $0.0172 | $0.0043 | 4.0× |
Os invariantes se mantêm como em toda a linha Opus:
- Desconto de leitura ≈ 90%. Uma leitura de cache quente custa cerca de 10% do preço de input, batendo com a economia documentada pela Anthropic de “até 90%” em leituras com cache. O ponto de equilíbrio é um acerto.
- TTL de 1 hora funciona igual.
cache_control: {"type": "ephemeral", "ttl": "1h"}é aceito no Sonnet 5, e o objetousagesepara os buckets como antes:cache_creation.ephemeral_5m_input_tokensvsephemeral_1h_input_tokens. O prêmio de escrita de 1 hora é cerca de 2× o valor sem cache (contra cerca de 1,25× na escrita de 5 minutos); as leituras ficam em ≈10% independente do TTL.
Uma ressalva sobre a tabela: aqueles valores por turno quente são na tarifa introdutória. A partir de 1 de setembro, multiplique os números do Sonnet 5 por 1,5× ($2 → $3 input, $10 → $15 output). Um turno quente do Sonnet 5 que custa $0.0017 hoje fica em cerca de $0.0026 em setembro, ainda abaixo dos $0.0043 do Opus 4.8, mas não mais abaixo do Sonnet 4.6.
A pegadinha da contagem de tokens
Tem um detalhe que faz o reajuste de setembro doer duas vezes. O mesmo texto de sistema reporta cerca de 41% mais tokens de input no Sonnet 5 do que no Sonnet 4.6.
| Modelo | Tokens de input (texto idêntico) | Custo de input no preço padrão |
|---|---|---|
claude-sonnet-4-6 | 1,594 | $0.0048 |
claude-sonnet-5 | 2,245 | $0.0067 |
claude-opus-4-8 | 2,245 | $0.0112 |
O Sonnet 5 tokeniza o mesmo prompt em inglês como 2,245 tokens, o mesmo número que o Opus 4.8 reporta, e bem acima dos 1,594 do Sonnet 4.6. O Sonnet 5 saiu com o tokenizer mais novo que a linha Opus adotou no 4.7.
Juntando o preço e a contagem de tokens, o quadro fica claro:
- No período de introdução, o aumento de 41% nos tokens é compensado pela tarifa 33% menor ($2 vs $3), então o mesmo prompt sem cache custa mais ou menos o que custava no 4.6, e turnos warm saem mais baratos graças ao output com desconto.
- A partir de 1º de setembro, a tarifa se iguala à do 4.6, mas a contagem de tokens não. O mesmo prompt em inglês custa cerca de 41% mais no Sonnet 5 do que no Sonnet 4.6 ($0.0067 vs $0.0048 para este prefixo), porque o texto idêntico é simplesmente contado como mais tokens ao mesmo preço por token.
Contra o Opus 4.8 não existe essa pegadinha: o tokenizer é o mesmo (2,245 = 2,245), então o Sonnet 5 é claramente mais barato tanto na tarifa de introdução (2,5×) quanto na tarifa padrão (1,67×).
Então faça o orçamento pela conta de setembro, não pela de julho: a tarifa por token sobe 1,5× em 1º de setembro, e a contagem maior de tokens já está embutida hoje. E leia cache_creation_input_tokens / cache_read_input_tokens da resposta ao vivo, em vez de um tokenizer local que talvez ainda esteja com o vocabulário antigo.
Sonnet 5 vs Opus 4.8: a vantagem que fica
Essa é a comparação que o lançamento muda de vez. Sonnet 5 e Opus 4.8 compartilham o tokenizer, então em qualquer prompt as contagens de tokens são idênticas e a diferença de custo é puramente a tarifa: 2,5× mais barato no preço de introdução, 1,67× mais barato no preço padrão, tanto em turnos cold quanto warm, em input e output. Um turno warm com cache hoje custa $0.0017 vs $0.0043; mesmo em setembro fica em torno de $0.0026 vs $0.0043.
Num loop de agente com alto volume de caching, onde o prefixo se repete a cada turno, essa diferença acumula. A decisão é a de sempre: rode sua própria avaliação e, se o Sonnet 5 passar do seu limiar de qualidade, a matemática do gateway favorece ele de forma duradoura, não só até agosto. Se não passar, o Opus 4.8 está a um campo model de distância com o mesmo código de caching.
Checklist de migração
- ✅ O código de caching passa igualzinho. Marcadores
cache_control, número de breakpoints,ttl: "1h", nomes dos campos deusage, tudo idêntico à linha Opus. - ✅ As escolhas de TTL passam iguais. 5m para cargas live/sessão, 1h para trabalho em rajadas ou de agente com pausas.
- ✅ A economia de desconto passa igual. ≈90% na leitura, ≈1,25× na escrita (5m), ≈2× na escrita (1h).
- ⚠️ Marque 1º de setembro no orçamento. A tarifa de introdução acaba em 31 de agosto; o Sonnet 5 vai para $3 / $15. Modele o salto de 1,5× antes que ele chegue.
- ⚠️ Meça de novo a contagem de tokens (se você vem do 4.6 ou anterior). Mesmo texto, cerca de 41% mais tokens no Sonnet 5. No preço padrão isso deixa o mesmo prompt mais caro que no 4.6, não mais barato.
- ⚠️ Confie no objeto
usageao vivo. Leia*_input_tokensecostda resposta, não de uma estimativa em cache da geração antiga.
Resumo
O Sonnet 5 é um bom negócio, mas com prazo. Contra o Opus 4.8, ele fica de forma duradoura entre 1,67× e 2,5× mais barato, com um caminho de caching que você adota sem mudar código. Isso o torna a primeira coisa óbvia para avaliar em qualquer workload de Opus que não seja crítico em qualidade. Contra o Sonnet 4.6 a vantagem é só o desconto de introdução: em 1º de setembro o preço iguala o do 4.6, e o novo tokenizer faz o mesmo prompt custar mais. Aproveite o desconto, mas dimensione o orçamento pelos números de setembro e confirme suas contagens de token contra o objeto usage ao vivo antes de prometer qualquer coisa ao financeiro.
Para o guia completo de caching, veja a série de quatro partes que começa em How KV Cache & TTL Work e o tutorial em Python funcional.
FAQ
O Sonnet 5 é mais barato que o Sonnet 4.6? Só durante o período de introdução. Até 31 de agosto de 2026 são $2 / $10 contra os $3 / $15 do 4.6. A partir de 1º de setembro passa a $3 / $15, a mesma tarifa. E como o mesmo texto conta cerca de 41% mais tokens no Sonnet 5, no preço padrão o mesmo prompt sai mais caro do que no 4.6.
Quando termina o preço de introdução? Em 31 de agosto de 2026, segundo o anúncio da Anthropic. Em 1º de setembro a tarifa vira $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída.
Quanto mais barato o Sonnet 5 é em relação ao Opus 4.8? 2,5× na tarifa de introdução, 1,67× na tarifa padrão, tanto na entrada quanto na saída. Eles compartilham o tokenizer, então as contagens de token batem e a diferença é puramente a tarifa, nos dois preços.
Preciso mudar meu código de cache_control?
Não. A sintaxe do marcador, o limite de breakpoints e as opções de TTL são idênticos aos da linha Opus. Troque o campo model e mais nada. Leituras quentes custam ≈10% do preço de entrada; a escrita de 1 hora é ≈2× do sem cache, e a de 5 minutos ≈1,25×.
O Sonnet 5 é um substituto direto do Opus 4.8? No que toca a caching, TTL e custo, a migração é trivial e ele é mais barato nos dois preços. Na qualidade, rode sua própria avaliação; não publicamos benchmarks de capacidade que não rodamos. Para afirmações sobre qualidade do modelo, veja o model card da Anthropic.
Verificação: preço, caching, TTL e contagens de token medidos contra https://synthorai.io/ em 2026-07-01 usando o caminho nativo da Anthropic /v1/messages, tenant único. Os preços por token derivam do custo do usage em chamadas simples; o custo por turno é uma mediana de amostra pequena com um prefixo em cache de 2,2K tokens e reflete a tarifa de introdução atual. O preço de introdução e a expiração em 31 de agosto de 2026 vêm do anúncio do Sonnet 5 da Anthropic; as razões de desconto/prêmio foram cruzadas com a documentação de Prompt Caching da Anthropic. Seus números vão variar conforme prompt, região e carga.