Claude Fable 5: Cache, Tokenizador e Custo vs Opus 4.6

Conteúdo
  1. Disponibilidade
  2. O destaque: Fable 5 usa o novo tokenizador
  3. Comportamento do cache: o contrato não mudou
  4. Comportamento do TTL: ambas as janelas são respeitadas
  5. A história do custo: 2x o preço x 1,45x os tokens
  6. Lista de verificação de migração (Opus → Fable 5)
  7. Conclusão
  8. Perguntas frequentes

claude-fable-5 já está disponível no gateway Synthorai. Se você usa cache com a linha Claude, a boa notícia é que o contrato de cache e TTL foi mantido: mesmos marcadores cache_control, mesmos TTLs de 5 minutos e 1 hora, mesmo custo adicional de escrita, mesmo desconto profundo de leitura. Seu código de cache migra com a troca de uma única string.

O que precisa de atenção no orçamento não são as mecânicas de cache — é a fatura. O Fable 5 é listado a 2x o preço por token do Opus, e ele tokeniza o mesmo texto em inglês em ~45% mais tokens do que o Opus 4.6 (usa o tokenizador pós-4.6, idêntico ao Opus 4.8). Esses dois multiplicadores se acumulam. Esta publicação mede tudo isso para que você não precise fazer isso sozinho.

Todos os números abaixo foram medidos em https://synthorai.io/ (Anthropic-native /v1/messages) em 2026-06-10 com um system prompt em inglês estável de ~6,6–9,6K tokens, max_tokens pequeno, execução sequencial única. Os valores de custo são lidos do campo usage.cost do gateway; as proporções (contagens de tokens, custo adicional de escrita, desconto de leitura, custo entre modelos) são a parte portável — os valores absolutos em dólares escalam com o seu prompt. Reproduza com seu próprio prompt antes de citá-los.


Disponibilidade

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-fable-5",             # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost

Troque claude-opus-4-6claude-fable-5 e nada no seu caminho de cache precisa ser alterado. O Fable 5 é um modelo nativo da Anthropic com janela de contexto de 1M tokens. Uma observação comportamental: ele é um modelo de raciocínio e emite tokens de pensamento por padrão — até mesmo um simples “responda OK” retornou output_tokens_details.thinking_tokens > 0 em nossas execuções, enquanto o Opus 4.6/4.8 retornou zero. Planeje o orçamento de tokens de saída adequadamente. As mecânicas por trás do cache_control são abordadas no tutorial de cache; a arquitetura de por que o cache existe está na Parte 1 da série.


O destaque: Fable 5 usa o novo tokenizador

A contagem de tokens para a linha Opus aumentou na geração 4.7: o mesmo texto em inglês que contava como ~6,6K tokens no 4.6 conta como ~9,6K no 4.8. O Fable 5 fica do lado novo — o texto idêntico reporta exatamente a mesma contagem de tokens que o Opus 4.8.

ModeloTokens de entrada (texto idêntico)Geração do tokenizador
claude-opus-4-66.614pré-4.7
claude-opus-4-89.619pós-4.7
claude-fable-59.619pós-4.7 (idêntico ao 4.8)

O mesmo system prompt tem ~45% mais tokens no Fable 5 do que no Opus 4.6 (9.619 / 6.614 = 1,45). Este é o número mais importante a internalizar antes de migrar, pois todos os valores derivados — custo, o limite mínimo de 1.024 tokens para elegibilidade de cache, seu orçamento por chamada — são calculados em tokens.

Estamos descrevendo uma observação medida — texto idêntico, contagem de tokens idêntica no Fable 5 e no Opus 4.8, ~45% acima do Opus 4.6 — mais consistente com a atualização de tokenizador/vocabulário que foi lançada na geração 4.7. Se você está vindo do 4.6 ou anterior, remeça; se está vindo do 4.7/4.8, espere paridade.


Comportamento do cache: o contrato não mudou

Executamos a mesma sequência sem cache / escrita fria / leitura quente em cada modelo. A estrutura de desconto é idêntica de ponta a ponta — o Fable 5 respeita cache_control e reporta os mesmos campos de uso (cache_creation_input_tokens, cache_read_input_tokens e os buckets ephemeral_5m / ephemeral_1h).

ModeloEscrita cache 5mEscrita cache 1hLeitura quente
claude-opus-4-61,25x2,00x~9% do sem-cache
claude-opus-4-81,25x2,00x~6% do sem-cache
claude-fable-51,24x1,99x~6% do sem-cache

Dois invariantes se mantêm nos três modelos:

  • Custo adicional de escrita ≈ 1,25x (5m), ≈ 2x (1h). A primeira chamada (fria) custa ~1,25x o preço sem cache para popular uma entrada de 5 minutos, ou ~2x para uma entrada de 1 hora. O ponto de equilíbrio é um único acerto.
  • Desconto de leitura ≈ 90%+. Uma leitura de cache quente no Fable 5 custou ~6% da chamada sem cache — um desconto de ~94%, alinhado (ligeiramente melhor) com a economia documentada pela Anthropic de ~90% para leituras em cache. As leituras permanecem com desconto profundo independentemente do TTL.

Os percentuais são estáveis em toda a linha. Assim como na transição do Opus 4.7 → 4.8, a fatura absoluta mais alta no Fable 5 é uma questão de preço e tokens, não de economia de cache — abordado a seguir.


Comportamento do TTL: ambas as janelas são respeitadas

O Fable 5 suporta os mesmos dois TTLs que o restante da linha: um padrão deslizante de 5 minutos e uma janela de 1 hora opcional. Isolamos cada TTL com um prefixo único por chamada (para que nenhuma entrada obsoleta pudesse contaminar o resultado) e confirmamos que o objeto de uso reporta o bucket correto — cache_creation.ephemeral_5m_input_tokens ou ephemeral_1h_input_tokens.

# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}

A escrita de 1 hora custa ~2x sem cache (vs ~1,25x para a escrita de 5 minutos), e as leituras permanecem com desconto profundo independentemente do TTL — idêntico ao Opus 4.6/4.8. Se você escolheu 5m para chat ao vivo e 1h para agentes com pausas de revisão humana no Opus, mantenha essas escolhas no Fable 5.


A história do custo: 2x o preço x 1,45x os tokens

É aqui que o Fable 5 realmente se diferencia. Dois fatores elevam a fatura, e eles se multiplicam.

1. O preço de tabela é 2x o nível Opus.

ModeloEntrada ($/M)Saída ($/M)Leitura em cache ($/M)
claude-opus-4-6 / 4-85250,5
claude-fable-510501

2. O mesmo texto tem ~45% mais tokens do que no 4.6 (a mudança de tokenizador acima).

Multiplique-os e o mesmo prompt em inglês custa materialmente mais. Medido com o system prompt idêntico em cada modelo (gateway usage.cost, mesma execução única):

ComparaçãoProporção de tokensProporção de preçoProporção de custo para o mesmo prompt (medida)
Fable 5 vs Opus 4.81,00x2,0x2,0x
Fable 5 vs Opus 4.61,45x2,0x2,9x

Portanto, em relação ao Opus 4.8 (mesmo tokenizador), o Fable 5 é um 2x limpo — puro prêmio de preço. Em relação ao Opus 4.6, a mudança de tokenizador compõe a mudança de preço em aproximadamente 2,9x o custo para o mesmo prompt. Seu desconto de cache não mudou, mas a base absoluta à qual ele se aplica é ~2,9x maior do que era no 4.6. Se você dimensionou um orçamento por chamada com base no 4.6, refaça o cálculo.

Uma consequência prática: verifique novamente o limite mínimo de 1.024 tokens para elegibilidade de cache. A Anthropic só armazena em cache prefixos com tamanho igual ou superior a um mínimo. Um prompt que ficava logo abaixo do limite no 4.6 (em tokens do tokenizador antigo) pode ultrapassá-lo no Fable 5 (~45% mais tokens) — e vice-versa para estimativas de tamanho construídas com a contagem antiga. Sempre leia cache_creation_input_tokens / cache_read_input_tokens da resposta ao vivo em vez de estimar com um tokenizador local que pode não corresponder.


Lista de verificação de migração (Opus → Fable 5)

  • O código de cache é transferido literalmente. Marcadores cache_control, limite de pontos de interrupção (até 4), ttl: "1h", nomes dos campos de uso — todos idênticos.
  • As escolhas de TTL são transferidas. 5m para cargas de trabalho ao vivo/sessão, 1h para agentes com pausas.
  • A economia de desconto é transferida. ~90%+ de leitura, ~1,25x de escrita (5m), ~2x de escrita (1h).
  • ⚠️ Replaneje o custo absoluto. O Fable 5 é ~2x o Opus por token e ~2,9x o custo do mesmo prompt vs Opus 4.6. O percentual de desconto não mudou; a base à qual ele se aplica, sim.
  • ⚠️ Remeça as contagens de tokens se estiver vindo do 4.6 ou anterior (espere ~45% mais para o mesmo texto). Do 4.7/4.8, espere paridade.
  • ⚠️ Considere os tokens de pensamento padrão. O Fable 5 emite tokens de raciocínio por padrão — eles são cobrados à taxa de saída ($50/M). Limite ou desative o pensamento se não precisar dele.

Conclusão

Para uma equipe que já usa cache com Claude, claude-fable-5 é uma integração fácil: toda a superfície de cache e TTL é estável, portanto não há nada a reaprender e nenhum código a reescrever. Não é uma troca fácil de orçamento em relação ao Opus 4.6 — entre o preço 2x por token e a inflação de ~45% do tokenizador, o mesmo prompt custa ~2,9x mais. Confirme seus números com o objeto usage ao vivo, decida se precisa dos tokens de pensamento padrão e dimensione os pontos de interrupção do cache com base nas novas contagens de tokens.

Para o guia completo de cache — estrutura de prompt, depuração de taxa de acerto, padrões com TTL — consulte a série de quatro partes começando com Como o Cache KV e o TTL Funcionam e o tutorial Python funcional.


Perguntas frequentes

Preciso alterar meu código cache_control para usar o Fable 5? Não. A sintaxe dos marcadores, o limite de pontos de interrupção e as opções de TTL são idênticos à linha Opus. Altere o campo model e nada mais no caminho de cache.

O desconto de leitura em cache mudou no Fable 5? Não. Uma leitura quente é uma pequena fração de dígito único do preço de entrada sem cache (~90%+ de desconto) — medimos ~94% no Fable 5, consistente com a economia documentada pela Anthropic para leituras em cache.

O Fable 5 suporta o TTL de 1 hora? Sim. {"type": "ephemeral", "ttl": "1h"} funciona exatamente como no Opus. A escrita de 1 hora custa ~2x sem cache; a escrita de 5 minutos ~1,25x. As leituras permanecem com desconto profundo em ambos.

Por que o mesmo prompt é muito mais caro no Fable 5 do que no Opus 4.6? Dois multiplicadores acumulados: o Fable 5 é listado a 2x o preço por token, e o mesmo texto em inglês conta como ~45% mais tokens (usa o tokenizador pós-4.6). Juntos, isso resulta em ~2,9x o custo para um prompt idêntico. O desconto de cache não mudou.

O Fable 5 é um substituto direto do Opus 4.8? Na superfície de cache/TTL e nas contagens de tokens, sim — as contagens de tokens são idênticas, portanto a única diferença é o preço

← Voltar ao blog