El nuevo tokenizador de Claude Sonnet 5: 41% más tokens por prompt

1 de julio de 2026 · claude-sonnet-5 · prompt-cache · cost · model-update

Contenido

Disponibilidad
Precio: barato ahora, de vuelta a la tarifa de Sonnet 4.6 en septiembre
Caché y TTL: se conecta directamente
La trampa del conteo de tokens
Sonnet 5 vs Opus 4.8: la ventaja duradera
Checklist de migración
En resumen
Preguntas frecuentes

claude-sonnet-5 ya está disponible en el gateway de Synthorai, y ahora mismo sale barato: $2 / $10 por millón de tokens de entrada / salida, 2,5× menos que Opus 4.8 y por debajo de Sonnet 4.6. Aprovéchalo mientras dure. Es un precio introductorio hasta el 31 de agosto de 2026; el 1 de septiembre la tarifa vuelve a $3 / $15, lo mismo que Sonnet 4.6.

Si cacheas contra la línea Claude, el contrato de caché y TTL se hereda tal cual. Donde tienes que mirar dos veces es en el coste, y el motivo está en cómo cuenta los tokens Sonnet 5. Trae un tokenizador nuevo que convierte el mismo texto en inglés en alrededor de un 41% más de tokens de entrada que Sonnet 4.6, y lo que pagas y lo que te limita es el número de tokens. El precio de tarifa es solo la mitad de la factura.

Esto es lo que toca ese cambio de tokens, antes de meter cualquier cambio de código o cuestión de calidad:

Coste por prompt. A la tarifa estándar, el mismo prompt en inglés cuesta alrededor de un 41% más que en Sonnet 4.6, porque el texto idéntico se factura como más tokens al mismo precio por token.
Cualquier estimación basada en tokens. Un presupuesto por llamada, o un conteo con tokenizador local, calibrado contra 4.6 se queda un 40% corto en Sonnet 5. Mide el usage real, no una estimación local.
Margen de la ventana de contexto. El mismo documento se come alrededor de un 41% más de la ventana, así que las llamadas de contexto largo y RAG encajan menos texto real por petición.
Límites de tasa. Un tope de tokens por minuto se agota alrededor de un 41% más rápido para la misma carga, lo que recorta el throughput.
Elegibilidad de caché (una pequeña ventaja). El mínimo de 1.024 tokens es más fácil de superar, así que un prefijo que en 4.6 quedaba justo por debajo puede volverse cacheable en Sonnet 5.

El resto del post pone números medidos a cada punto: precio, la economía del caché y el cambio en el conteo de tokens.

Precios, caché, TTL y conteos de tokens medidos contra https://synthorai.io/ (/v1/messages nativo de Anthropic) el 2026-07-01. Los precios por token se derivan del coste de usage en llamadas reales; las tarifas intro/estándar y el vencimiento del 31 de agosto vienen del anuncio de Anthropic. Reprodúcelo con tu propio prompt antes de citarlo.

Disponibilidad

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

Cambia el campo model y nada en tu ruta de caché se mueve. La mecánica detrás de cache_control está en el tutorial de caching; la arquitectura de por qué existe la caché está en la Parte 1 de la serie.

Precio: barato ahora, de vuelta a la tarifa de Sonnet 4.6 en septiembre

Precio por token en el gateway, calculado a partir del coste que reporta usage en llamadas normales (sin caché):

Modelo	Input ($/M)	Output ($/M)
`claude-sonnet-5` (intro, hasta el 31 de agosto)	$2.00	$10.00
`claude-sonnet-5` (estándar, desde el 1 de septiembre)	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

La tarifa de intro es un descuento real, y frente a Opus 4.8 es la parte que se mantiene: incluso al precio estándar de $3 / $15, Sonnet 5 sigue siendo más barato que Opus, y ambos comparten tokenizer (más sobre esto abajo), así que la comparación es limpia a ambos precios.

Frente a Sonnet 4.6 el descuento es temporal. El 1 de septiembre el precio de lista es idéntico, así que cualquier plan de “Sonnet 5 es más barato que 4.6” basado en el número de hoy caduca con la promo. Y como muestra la siguiente sección, a igual precio de lista Sonnet 5 es en realidad el más caro de los dos para el mismo texto.

No publicamos benchmarks de capacidad que no hayamos ejecutado; si la calidad de Sonnet 5 justifica su coste frente a 4.6 es algo que tu eval decide, no nosotros.

Caché y TTL: se conecta directamente

El contrato de caché es idéntico al del resto de la línea Claude. Ejecutamos una secuencia de escritura en frío / lectura en caliente con un prefijo estable de 2.2K tokens, variando el mensaje de usuario en cada llamada para que ningún caché a nivel de respuesta contaminara el resultado. Coste por turno en caliente, al precio de intro actual:

Modelo	Turno frío (escritura de caché)	Turno caliente (lectura de caché)	Frío → caliente
`claude-sonnet-5` (intro)	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

Los invariantes se mantienen igual que en toda la línea Opus:

Descuento de lectura ≈ 90%. Una lectura de caché en caliente cuesta alrededor del 10% del precio de input, en línea con el ahorro documentado por Anthropic de “hasta el 90%” en lecturas cacheadas. El punto de equilibrio es un solo hit.
El TTL de 1 hora funciona igual. cache_control: {"type": "ephemeral", "ttl": "1h"} se acepta en Sonnet 5, y el objeto usage divide los buckets como antes: cache_creation.ephemeral_5m_input_tokens frente a ephemeral_1h_input_tokens. El sobrecoste de escritura a 1 hora es de unas 2× respecto a no usar caché (frente a unas 1.25× para la escritura de 5 minutos); las lecturas se mantienen en ≈10% sin importar el TTL.

Una advertencia sobre la tabla: esos dólares por turno en caliente son a la tarifa de intro. Desde el 1 de septiembre, multiplica las cifras de Sonnet 5 por 1.5× ($2 → $3 input, $10 → $15 output). Un turno caliente de Sonnet 5 que hoy cuesta $0.0017 sale a unos $0.0026 en septiembre, todavía por debajo de los $0.0043 de Opus 4.8, pero ya no por debajo de Sonnet 4.6.

La trampa del conteo de tokens

Aquí está lo que hace que el reset de septiembre pegue dos veces. El mismo texto de sistema reporta cerca de un 41% más de tokens de entrada en Sonnet 5 que en Sonnet 4.6.

Modelo	Tokens de entrada (texto idéntico)	Costo de entrada a precio estándar
`claude-sonnet-4-6`	1,594	$0.0048
`claude-sonnet-5`	2,245	$0.0067
`claude-opus-4-8`	2,245	$0.0112

Sonnet 5 tokeniza el mismo prompt en inglés como 2,245 tokens, el mismo conteo que reporta Opus 4.8 y bastante por encima de los 1,594 de Sonnet 4.6. Sonnet 5 salió con el tokenizer más reciente que la línea Opus adoptó en la 4.7.

Junta el precio con el conteo de tokens y el cuadro queda claro:

Durante el periodo introductorio, el aumento del 41% en tokens se compensa con la tarifa un 33% más baja ($2 vs $3), así que el mismo prompt sin caché cuesta más o menos lo que costaba en la 4.6, y los turnos calientes salen más baratos gracias al descuento en la salida.
Desde el 1 de septiembre, la tarifa iguala a la de la 4.6 pero el conteo de tokens no. El mismo prompt en inglés cuesta cerca de un 41% más en Sonnet 5 que en Sonnet 4.6 ($0.0067 vs $0.0048 para este prefijo), porque el texto idéntico simplemente se cuenta como más tokens al mismo precio por token.

Frente a Opus 4.8 no hay tal trampa: el tokenizer es el mismo (2,245 = 2,245), así que Sonnet 5 sale claramente más barato tanto a la tarifa introductoria (2.5×) como a la estándar (1.67×).

Así que presupuesta la factura de septiembre, no la de julio: la tarifa por token sube 1.5× el 1 de septiembre, y el conteo de tokens más alto ya está incorporado hoy. Y lee cache_creation_input_tokens / cache_read_input_tokens de la respuesta en vivo en lugar de un tokenizer local que quizá siga con el vocabulario antiguo.

Sonnet 5 vs Opus 4.8: la ventaja duradera

Esta es la comparación que el lanzamiento cambia para siempre. Sonnet 5 y Opus 4.8 comparten tokenizer, así que en cualquier prompt los conteos de tokens son idénticos y la diferencia de costo es puramente la tarifa: 2.5× más barato al precio introductorio, 1.67× más barato al precio estándar, tanto en turnos fríos como calientes, entrada y salida por igual. Un turno caliente con caché hoy sale $0.0017 vs $0.0043; incluso en septiembre queda en torno a $0.0026 vs $0.0043.

En un loop de agente de alto volumen con caché donde el prefijo se repite en cada turno, esa brecha se acumula. La decisión es la de siempre: corre tu propia eval, y si Sonnet 5 supera tu umbral de calidad, la matemática del gateway lo favorece de forma duradera, no solo hasta agosto. Si no lo supera, Opus 4.8 está a un campo model de distancia con el mismo código de caché.

Checklist de migración

✅ El código de caché se traslada tal cual. Los marcadores cache_control, el número de breakpoints, ttl: "1h" y los nombres de campo de usage son idénticos a los de la línea Opus.
✅ Las decisiones de TTL se trasladan. 5m para cargas en vivo/de sesión, 1h para trabajo a ráfagas o de agente con pausas.
✅ La economía del descuento se traslada. ≈90% lectura, ≈1.25× escritura (5m), ≈2× escritura (1h).
⚠️ Marca el 1 de septiembre en el presupuesto. La tarifa introductoria termina el 31 de agosto; Sonnet 5 pasa a $3 / $15. Modela el salto de 1.5× antes de que llegue.
⚠️ Vuelve a medir los conteos de tokens (desde la 4.6 o anteriores). Mismo texto, cerca de un 41% más de tokens en Sonnet 5. Con el precio estándar eso hace que el mismo prompt sea más caro que en la 4.6, no más barato.
⚠️ Confía en el objeto usage en vivo. Lee *_input_tokens y cost de la respuesta, no de una estimación cacheada de la generación antigua.

En resumen

Sonnet 5 es una buena oferta, pero con fecha de caducidad. Frente a Opus 4.8 es entre 1,67 y 2,5× más barato de forma sostenida y con una ruta de caching directa, así que es lo primero que conviene evaluar en cualquier carga de Opus que no sea crítica en calidad. Frente a Sonnet 4.6 la ventaja se limita al descuento de lanzamiento: el 1 de septiembre el precio iguala al de 4.6, y como el tokenizer es nuevo, el mismo prompt sale más caro. Aprovecha el descuento, pero dimensiona el presupuesto con los números de septiembre y verifica tu conteo de tokens contra el objeto usage real antes de prometerle nada a finanzas.

Para el manual completo de caching, revisa la serie de cuatro partes que empieza en Cómo funcionan KV Cache y TTL y el tutorial de Python con código funcional.

Preguntas frecuentes

¿Sonnet 5 es más barato que Sonnet 4.6? Solo durante el periodo de lanzamiento. Hasta el 31 de agosto de 2026 cuesta $2 / $10 frente a los $3 / $15 de 4.6. Desde el 1 de septiembre pasa a $3 / $15, la misma tarifa. Y como el mismo texto cuenta como un 41% más de tokens en Sonnet 5, al precio estándar el mismo prompt sale más caro que en 4.6.

¿Cuándo termina el precio de lanzamiento? El 31 de agosto de 2026, según el anuncio de Anthropic. El 1 de septiembre la tarifa pasa a $3 por millón de tokens de input y $15 por millón de output.

¿Cuánto más barato es Sonnet 5 que Opus 4.8? 2,5× a la tarifa de lanzamiento y 1,67× a la estándar, tanto en input como en output. Comparten tokenizer, así que los conteos de tokens coinciden y la diferencia es puramente la tarifa, en ambos precios.

¿Tengo que cambiar mi código de cache_control? No. La sintaxis de los marcadores, el límite de breakpoints y las opciones de TTL son idénticas a la línea Opus. Cambia el campo model y nada más. Las lecturas en caliente cuestan ≈10% del precio de input; la escritura de 1 hora es ≈2× sin caché, y la de 5 minutos ≈1,25×.

¿Sonnet 5 reemplaza directamente a Opus 4.8? En cuanto a caching, TTL y costo, la migración es trivial y es más barato en ambos precios. En calidad, haz tu propia eval; no publicamos benchmarks de capacidad que no hayamos ejecutado. Para las afirmaciones sobre calidad del modelo, consulta el model card de Anthropic.

Verificación: las cifras de precio, caching, TTL y conteo de tokens se midieron contra https://synthorai.io/ el 2026-07-01 usando la ruta nativa de Anthropic /v1/messages, con un solo tenant. Los precios por token se derivan del costo de usage en llamadas simples; el costo por turno es una mediana de muestra pequeña con un prefijo cacheado de 2,2K tokens y refleja la tarifa de lanzamiento actual. El precio de lanzamiento y su expiración el 31 de agosto de 2026 provienen del anuncio de Sonnet 5 de Anthropic; las proporciones de descuento/prima se contrastaron con la documentación de Prompt Caching de Anthropic. Tus números variarán según el prompt, la región y la carga.

← Volver al blog