Claude Fable 5: Caché, Tokenizador y Costos vs Opus 4.6

Contenido
  1. Disponibilidad
  2. El titular: Fable 5 usa el nuevo tokenizador
  3. Comportamiento del caché: el contrato no ha cambiado
  4. Comportamiento del TTL: ambas ventanas son respetadas
  5. La historia del costo: 2x precio x 1.45x tokens
  6. Lista de verificación de migración (Opus → Fable 5)
  7. Conclusión
  8. Preguntas frecuentes

claude-fable-5 ya está disponible en el gateway de Synthorai. Si usas caché con la línea Claude, la buena noticia es que el contrato de caché y TTL se mantiene igual: mismos marcadores cache_control, mismos TTL de 5 minutos y 1 hora, mismas primas de escritura, mismo descuento profundo en lectura. Tu código de caché migra cambiando una sola cadena de texto.

Lo que hay que presupuestar no son los mecanismos de caché — sino la factura. Fable 5 tiene un precio de lista de 2x el precio por token de Opus, y tokeniza el mismo texto en inglés en ~45% más tokens que Opus 4.6 (usa el tokenizador posterior a 4.6, idéntico al de Opus 4.8). Esos dos multiplicadores se acumulan. Esta publicación los mide todos para que no tengas que hacerlo tú.

Todos los números a continuación fueron medidos contra https://synthorai.io/ (Anthropic nativo /v1/messages) el 2026-06-10 con un system prompt en inglés estable de ~6.6–9.6K tokens, max_tokens pequeño, ejecución secuencial única. Las cifras de costo se leen del campo usage.cost del gateway; los ratios (conteos de tokens, prima de escritura, descuento de lectura, costo entre modelos) son la parte portable — los dólares absolutos escalan con tu prompt. Reprodúcelos contra tu propio prompt antes de citarlos.


Disponibilidad

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-fable-5",             # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost

Cambia claude-opus-4-6claude-fable-5 y nada en tu ruta de caché necesita modificarse. Fable 5 es un modelo nativo de Anthropic con una ventana de contexto de 1M tokens. Una nota de comportamiento: es un modelo de razonamiento y emite tokens de pensamiento por defecto — incluso un trivial “reply OK” devolvió output_tokens_details.thinking_tokens > 0 en nuestras ejecuciones, donde Opus 4.6/4.8 devolvió cero. Presupuesta los tokens de salida en consecuencia. Los mecanismos detrás de cache_control están cubiertos en el tutorial de caché; la arquitectura de por qué existe el caché está en la Parte 1 de la serie.


El titular: Fable 5 usa el nuevo tokenizador

El conteo de tokens para la línea Opus aumentó en la generación 4.7: el mismo texto en inglés que contaba como ~6.6K tokens en 4.6 cuenta como ~9.6K en 4.8. Fable 5 cae del lado nuevo — el texto idéntico reporta exactamente el mismo conteo de tokens que Opus 4.8.

ModeloTokens de entrada (texto idéntico)Generación del tokenizador
claude-opus-4-66,614pre-4.7
claude-opus-4-89,619post-4.7
claude-fable-59,619post-4.7 (idéntico a 4.8)

El mismo system prompt tiene ~45% más tokens en Fable 5 que en Opus 4.6 (9,619 / 6,614 = 1.45). Este es el número más importante a interiorizar antes de migrar, porque cada cifra derivada — costo, el umbral de elegibilidad de caché de 1,024 tokens, tu presupuesto por llamada — se calcula en tokens.

Describimos una observación medida — texto idéntico, conteo de tokens idéntico en Fable 5 y Opus 4.8, ~45% por encima de Opus 4.6 — más consistente con la actualización del tokenizador/vocabulario que se lanzó en la generación 4.7. Si vienes de 4.6 o anterior, vuelve a medir; si vienes de 4.7/4.8, espera paridad.


Comportamiento del caché: el contrato no ha cambiado

Ejecutamos la misma secuencia sin caché / escritura en frío / lectura en caliente en cada modelo. La estructura de descuentos es idéntica de extremo a extremo — Fable 5 respeta cache_control y reporta los mismos campos de uso (cache_creation_input_tokens, cache_read_input_tokens, y los buckets ephemeral_5m / ephemeral_1h).

ModeloEscritura caché 5mEscritura caché 1hLectura en caliente
claude-opus-4-61.25x2.00x~9% del sin caché
claude-opus-4-81.25x2.00x~6% del sin caché
claude-fable-51.24x1.99x~6% del sin caché

Dos invariantes se mantienen en los tres:

  • Prima de escritura ≈ 1.25x (5m), ≈ 2x (1h). La primera llamada (en frío) cuesta ~1.25x el precio sin caché para poblar una entrada de 5 minutos, o ~2x para una entrada de 1 hora. El punto de equilibrio es un solo hit.
  • Descuento de lectura ≈ 90%+. Una lectura de caché en caliente en Fable 5 costó ~6% de la llamada sin caché — un descuento de ~94%, en línea con (ligeramente mejor que) la economía documentada por Anthropic de ~90% en lecturas cacheadas. Las lecturas permanecen profundamente descontadas independientemente del TTL.

Los porcentajes son estables en toda la línea. Al igual que en el paso de Opus 4.7 → 4.8, la factura absoluta más alta en Fable 5 es una cuestión de precio y tokens, no de economía del caché — lo cubrimos a continuación.


Comportamiento del TTL: ambas ventanas son respetadas

Fable 5 admite los mismos dos TTL que el resto de la línea: un deslizante por defecto de 5 minutos y una ventana opt-in de 1 hora. Aislamos cada TTL con un prefijo único por llamada (para que ninguna entrada obsoleta pudiera contaminar el resultado) y confirmamos que el objeto de uso reporta el bucket correcto — cache_creation.ephemeral_5m_input_tokens o ephemeral_1h_input_tokens.

# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}

La escritura de 1 hora cuesta ~2x sin caché (vs ~1.25x para la escritura de 5 minutos), y las lecturas permanecen con el descuento profundo independientemente del TTL — idéntico a Opus 4.6/4.8. Si elegiste 5m para chat en vivo y 1h para agentes con pausas de intervención humana en Opus, mantén esas elecciones en Fable 5.


La historia del costo: 2x precio x 1.45x tokens

Aquí es donde Fable 5 realmente difiere. Dos factores elevan la factura, y se multiplican.

1. El precio de lista es 2x el nivel Opus.

ModeloEntrada ($/M)Salida ($/M)Lectura caché ($/M)
claude-opus-4-6 / 4-85250.5
claude-fable-510501

2. El mismo texto tiene ~45% más tokens que en 4.6 (el cambio de tokenizador mencionado arriba).

Multiplícalos y el mismo prompt en inglés cuesta materialmente más. Medido contra el system prompt idéntico en cada modelo (gateway usage.cost, misma ejecución única):

ComparaciónRatio de tokensRatio de precioRatio de costo mismo prompt (medido)
Fable 5 vs Opus 4.81.00x2.0x2.0x
Fable 5 vs Opus 4.61.45x2.0x2.9x

Entonces, contra Opus 4.8 (mismo tokenizador), Fable 5 es un 2x limpio — prima de precio pura. Contra Opus 4.6, el cambio de tokenizador compone el cambio de precio en aproximadamente 2.9x el costo para el mismo prompt. Tu descuento de caché no ha cambiado, pero la base absoluta a la que se aplica es ~2.9x mayor que en 4.6. Si dimensionaste un presupuesto por llamada contra 4.6, recalcúlalo.

Una consecuencia práctica: revisa el umbral de elegibilidad de caché de 1,024 tokens. Anthropic solo cachea prefijos de tamaño igual o superior a un mínimo. Un prompt que estaba justo por debajo del umbral en 4.6 (en tokens del tokenizador antiguo) puede superarlo en Fable 5 (~45% más tokens) — y viceversa para estimaciones de tamaño construidas con el conteo antiguo. Siempre lee cache_creation_input_tokens / cache_read_input_tokens de la respuesta en vivo en lugar de estimar con un tokenizador local que puede no coincidir.


Lista de verificación de migración (Opus → Fable 5)

  • El código de caché se traslada literalmente. Marcadores cache_control, cantidad de breakpoints (hasta 4), ttl: "1h", nombres de campos de uso — todo idéntico.
  • Las elecciones de TTL se trasladan. 5m para cargas de trabajo en vivo/sesión, 1h para agentes con pausas o intervención humana.
  • La economía del descuento se traslada. ~90%+ en lectura, ~1.25x en escritura (5m), ~2x en escritura (1h).
  • ⚠️ Reajusta el presupuesto absoluto. Fable 5 es ~2x Opus por token, y ~2.9x el costo del mismo prompt vs Opus 4.6. El porcentaje de descuento no ha cambiado; la base a la que se aplica sí.
  • ⚠️ Vuelve a medir los conteos de tokens si vienes de 4.6 o anterior (espera ~45% más para el mismo texto). Desde 4.7/4.8, espera paridad.
  • ⚠️ Considera los tokens de pensamiento por defecto. Fable 5 emite tokens de razonamiento por defecto — se facturan a la tarifa de salida ($50/M). Limita o deshabilita el pensamiento si no lo necesitas.

Conclusión

Para un equipo que ya usa caché con Claude, claude-fable-5 es una integración sencilla: toda la superficie de caché y TTL es estable, así que no hay nada que reaprender ni código que reescribir. No es un cambio de presupuesto sencillo desde Opus 4.6 — entre el precio 2x por token y la inflación de ~45% del tokenizador, el mismo prompt cuesta ~2.9x. Confirma tus números contra el objeto usage en vivo, decide si necesitas los tokens de pensamiento por defecto, y dimensiona los breakpoints de caché contra los nuevos conteos de tokens.

Para el manual completo de caché — estructura de prompts, depuración de tasa de aciertos, patrones con TTL — consulta la serie de cuatro partes que comienza con Cómo Funcionan el Caché KV y el TTL y el tutorial práctico en Python.


Preguntas frecuentes

¿Necesito cambiar mi código de cache_control para usar Fable 5? No. La sintaxis de marcadores, el límite de breakpoints y las opciones de TTL son idénticos a la línea Opus. Cambia el campo model y nada más en la ruta de caché.

¿Cambió el descuento de lectura de caché en Fable 5? No. Una lectura en caliente es una pequeña fracción de un solo dígito del precio de entrada sin caché (~90%+ de descuento) — medimos ~94% en Fable 5, consistente con la economía de lectura cacheada documentada por Anthropic.

¿Fable 5 admite el TTL de 1 hora? Sí. {"type": "ephemeral", "ttl": "1h"} funciona exactamente igual que en Opus. La escritura de 1 hora cuesta ~2x sin caché; la escritura de 5 minutos ~1.25x. Las lecturas permanecen profundamente descontadas en ambos casos.

¿Por qué el mismo prompt es mucho más caro en Fable 5 que en Opus 4.6? Dos multiplicadores acumulados: Fable 5 tiene un precio de lista de 2x por token, y el mismo texto en inglés cuenta como ~45% más tokens (usa el tokenizador posterior a 4.6). Juntos eso es ~2.9x el costo para un prompt idéntico. El descuento de caché no ha cambiado.

¿Es Fable 5 un reemplazo directo de Opus 4.8? En la superficie de caché/TTL y conteos de tokens, sí — los conteos de tokens son idénticos, por lo que el único delta es el precio 2x y los tokens de pens

← Volver al blog