Claude Fable 5: Cache, Tokenizador e Custo vs Opus 4.6
Conteúdo
claude-fable-5 já está disponível no gateway Synthorai. Se você usa cache com a linha Claude, a boa notícia é que o contrato de cache e TTL foi mantido: mesmos marcadores cache_control, mesmos TTLs de 5 minutos e 1 hora, mesmo custo adicional de escrita, mesmo desconto profundo de leitura. Seu código de cache migra com a troca de uma única string.
O que precisa de atenção no orçamento não são as mecânicas de cache — é a fatura. O Fable 5 é listado a 2x o preço por token do Opus, e ele tokeniza o mesmo texto em inglês em ~45% mais tokens do que o Opus 4.6 (usa o tokenizador pós-4.6, idêntico ao Opus 4.8). Esses dois multiplicadores se acumulam. Esta publicação mede tudo isso para que você não precise fazer isso sozinho.
Todos os números abaixo foram medidos em
https://synthorai.io/(Anthropic-native/v1/messages) em 2026-06-10 com um system prompt em inglês estável de ~6,6–9,6K tokens,max_tokenspequeno, execução sequencial única. Os valores de custo são lidos do campousage.costdo gateway; as proporções (contagens de tokens, custo adicional de escrita, desconto de leitura, custo entre modelos) são a parte portável — os valores absolutos em dólares escalam com o seu prompt. Reproduza com seu próprio prompt antes de citá-los.
Disponibilidade
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-fable-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost
Troque claude-opus-4-6 → claude-fable-5 e nada no seu caminho de cache precisa ser alterado. O Fable 5 é um modelo nativo da Anthropic com janela de contexto de 1M tokens. Uma observação comportamental: ele é um modelo de raciocínio e emite tokens de pensamento por padrão — até mesmo um simples “responda OK” retornou output_tokens_details.thinking_tokens > 0 em nossas execuções, enquanto o Opus 4.6/4.8 retornou zero. Planeje o orçamento de tokens de saída adequadamente. As mecânicas por trás do cache_control são abordadas no tutorial de cache; a arquitetura de por que o cache existe está na Parte 1 da série.
O destaque: Fable 5 usa o novo tokenizador
A contagem de tokens para a linha Opus aumentou na geração 4.7: o mesmo texto em inglês que contava como ~6,6K tokens no 4.6 conta como ~9,6K no 4.8. O Fable 5 fica do lado novo — o texto idêntico reporta exatamente a mesma contagem de tokens que o Opus 4.8.
| Modelo | Tokens de entrada (texto idêntico) | Geração do tokenizador |
|---|---|---|
claude-opus-4-6 | 6.614 | pré-4.7 |
claude-opus-4-8 | 9.619 | pós-4.7 |
claude-fable-5 | 9.619 | pós-4.7 (idêntico ao 4.8) |
O mesmo system prompt tem ~45% mais tokens no Fable 5 do que no Opus 4.6 (9.619 / 6.614 = 1,45). Este é o número mais importante a internalizar antes de migrar, pois todos os valores derivados — custo, o limite mínimo de 1.024 tokens para elegibilidade de cache, seu orçamento por chamada — são calculados em tokens.
Estamos descrevendo uma observação medida — texto idêntico, contagem de tokens idêntica no Fable 5 e no Opus 4.8, ~45% acima do Opus 4.6 — mais consistente com a atualização de tokenizador/vocabulário que foi lançada na geração 4.7. Se você está vindo do 4.6 ou anterior, remeça; se está vindo do 4.7/4.8, espere paridade.
Comportamento do cache: o contrato não mudou
Executamos a mesma sequência sem cache / escrita fria / leitura quente em cada modelo. A estrutura de desconto é idêntica de ponta a ponta — o Fable 5 respeita cache_control e reporta os mesmos campos de uso (cache_creation_input_tokens, cache_read_input_tokens e os buckets ephemeral_5m / ephemeral_1h).
| Modelo | Escrita cache 5m | Escrita cache 1h | Leitura quente |
|---|---|---|---|
claude-opus-4-6 | 1,25x | 2,00x | ~9% do sem-cache |
claude-opus-4-8 | 1,25x | 2,00x | ~6% do sem-cache |
claude-fable-5 | 1,24x | 1,99x | ~6% do sem-cache |
Dois invariantes se mantêm nos três modelos:
- Custo adicional de escrita ≈ 1,25x (5m), ≈ 2x (1h). A primeira chamada (fria) custa ~1,25x o preço sem cache para popular uma entrada de 5 minutos, ou ~2x para uma entrada de 1 hora. O ponto de equilíbrio é um único acerto.
- Desconto de leitura ≈ 90%+. Uma leitura de cache quente no Fable 5 custou ~6% da chamada sem cache — um desconto de ~94%, alinhado (ligeiramente melhor) com a economia documentada pela Anthropic de ~90% para leituras em cache. As leituras permanecem com desconto profundo independentemente do TTL.
Os percentuais são estáveis em toda a linha. Assim como na transição do Opus 4.7 → 4.8, a fatura absoluta mais alta no Fable 5 é uma questão de preço e tokens, não de economia de cache — abordado a seguir.
Comportamento do TTL: ambas as janelas são respeitadas
O Fable 5 suporta os mesmos dois TTLs que o restante da linha: um padrão deslizante de 5 minutos e uma janela de 1 hora opcional. Isolamos cada TTL com um prefixo único por chamada (para que nenhuma entrada obsoleta pudesse contaminar o resultado) e confirmamos que o objeto de uso reporta o bucket correto — cache_creation.ephemeral_5m_input_tokens ou ephemeral_1h_input_tokens.
# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}
A escrita de 1 hora custa ~2x sem cache (vs ~1,25x para a escrita de 5 minutos), e as leituras permanecem com desconto profundo independentemente do TTL — idêntico ao Opus 4.6/4.8. Se você escolheu 5m para chat ao vivo e 1h para agentes com pausas de revisão humana no Opus, mantenha essas escolhas no Fable 5.
A história do custo: 2x o preço x 1,45x os tokens
É aqui que o Fable 5 realmente se diferencia. Dois fatores elevam a fatura, e eles se multiplicam.
1. O preço de tabela é 2x o nível Opus.
| Modelo | Entrada ($/M) | Saída ($/M) | Leitura em cache ($/M) |
|---|---|---|---|
claude-opus-4-6 / 4-8 | 5 | 25 | 0,5 |
claude-fable-5 | 10 | 50 | 1 |
2. O mesmo texto tem ~45% mais tokens do que no 4.6 (a mudança de tokenizador acima).
Multiplique-os e o mesmo prompt em inglês custa materialmente mais. Medido com o system prompt idêntico em cada modelo (gateway usage.cost, mesma execução única):
| Comparação | Proporção de tokens | Proporção de preço | Proporção de custo para o mesmo prompt (medida) |
|---|---|---|---|
| Fable 5 vs Opus 4.8 | 1,00x | 2,0x | 2,0x |
| Fable 5 vs Opus 4.6 | 1,45x | 2,0x | 2,9x |
Portanto, em relação ao Opus 4.8 (mesmo tokenizador), o Fable 5 é um 2x limpo — puro prêmio de preço. Em relação ao Opus 4.6, a mudança de tokenizador compõe a mudança de preço em aproximadamente 2,9x o custo para o mesmo prompt. Seu desconto de cache não mudou, mas a base absoluta à qual ele se aplica é ~2,9x maior do que era no 4.6. Se você dimensionou um orçamento por chamada com base no 4.6, refaça o cálculo.
Uma consequência prática: verifique novamente o limite mínimo de 1.024 tokens para elegibilidade de cache. A Anthropic só armazena em cache prefixos com tamanho igual ou superior a um mínimo. Um prompt que ficava logo abaixo do limite no 4.6 (em tokens do tokenizador antigo) pode ultrapassá-lo no Fable 5 (~45% mais tokens) — e vice-versa para estimativas de tamanho construídas com a contagem antiga. Sempre leia cache_creation_input_tokens / cache_read_input_tokens da resposta ao vivo em vez de estimar com um tokenizador local que pode não corresponder.
Lista de verificação de migração (Opus → Fable 5)
- ✅ O código de cache é transferido literalmente. Marcadores
cache_control, limite de pontos de interrupção (até 4),ttl: "1h", nomes dos campos de uso — todos idênticos. - ✅ As escolhas de TTL são transferidas. 5m para cargas de trabalho ao vivo/sessão, 1h para agentes com pausas.
- ✅ A economia de desconto é transferida. ~90%+ de leitura, ~1,25x de escrita (5m), ~2x de escrita (1h).
- ⚠️ Replaneje o custo absoluto. O Fable 5 é ~2x o Opus por token e ~2,9x o custo do mesmo prompt vs Opus 4.6. O percentual de desconto não mudou; a base à qual ele se aplica, sim.
- ⚠️ Remeça as contagens de tokens se estiver vindo do 4.6 ou anterior (espere ~45% mais para o mesmo texto). Do 4.7/4.8, espere paridade.
- ⚠️ Considere os tokens de pensamento padrão. O Fable 5 emite tokens de raciocínio por padrão — eles são cobrados à taxa de saída ($50/M). Limite ou desative o pensamento se não precisar dele.
Conclusão
Para uma equipe que já usa cache com Claude, claude-fable-5 é uma integração fácil: toda a superfície de cache e TTL é estável, portanto não há nada a reaprender e nenhum código a reescrever. Não é uma troca fácil de orçamento em relação ao Opus 4.6 — entre o preço 2x por token e a inflação de ~45% do tokenizador, o mesmo prompt custa ~2,9x mais. Confirme seus números com o objeto usage ao vivo, decida se precisa dos tokens de pensamento padrão e dimensione os pontos de interrupção do cache com base nas novas contagens de tokens.
Para o guia completo de cache — estrutura de prompt, depuração de taxa de acerto, padrões com TTL — consulte a série de quatro partes começando com Como o Cache KV e o TTL Funcionam e o tutorial Python funcional.
Perguntas frequentes
Preciso alterar meu código cache_control para usar o Fable 5?
Não. A sintaxe dos marcadores, o limite de pontos de interrupção e as opções de TTL são idênticos à linha Opus. Altere o campo model e nada mais no caminho de cache.
O desconto de leitura em cache mudou no Fable 5? Não. Uma leitura quente é uma pequena fração de dígito único do preço de entrada sem cache (~90%+ de desconto) — medimos ~94% no Fable 5, consistente com a economia documentada pela Anthropic para leituras em cache.
O Fable 5 suporta o TTL de 1 hora?
Sim. {"type": "ephemeral", "ttl": "1h"} funciona exatamente como no Opus. A escrita de 1 hora custa ~2x sem cache; a escrita de 5 minutos ~1,25x. As leituras permanecem com desconto profundo em ambos.
Por que o mesmo prompt é muito mais caro no Fable 5 do que no Opus 4.6? Dois multiplicadores acumulados: o Fable 5 é listado a 2x o preço por token, e o mesmo texto em inglês conta como ~45% mais tokens (usa o tokenizador pós-4.6). Juntos, isso resulta em ~2,9x o custo para um prompt idêntico. O desconto de cache não mudou.
O Fable 5 é um substituto direto do Opus 4.8? Na superfície de cache/TTL e nas contagens de tokens, sim — as contagens de tokens são idênticas, portanto a única diferença é o preço