Blog de ingeniería: pasarela LLM, BYOK y caché

Claude Opus 5 frente a Opus 4.8, medidos: mismo precio, 3x de diferencia

27 de julio de 2026 · claude-opus-5 · reasoning · pricing · prompt-cache

Opus 5 y Opus 4.8 comparten tarifas de $5/$25, pero, con la configuración predeterminada, Opus 5 facturó 3.1x más en tareas idénticas. Explicamos en qué se va el coste y qué ajuste elimina la diferencia.

API de voz a texto: 14 modelos, de $0.002 a $0.016 por minuto

26 de julio de 2026 · asr · speech-to-text · transcription · pricing

14 API de voz a texto tras un único gateway: tarifas por minuto, modelos con streaming, equivalencia por minuto de gpt-4o facturado por tokens y el nivel de ASR chino que casi todas las comparativas omiten.

Gemini 3.6 Flash: el control de razonamiento que multiplica el coste por 30 (medido)

24 de julio de 2026 · gemini-3.6-flash · reasoning · pricing · gemini

Gemini 3.6 Flash factura tokens de razonamiento que nunca ves, y un ajuste por petición puede multiplicar por 30 el coste de una misma tarea. Lo medimos en cinco tipos de tareas, con una salvedad.

Precios de la API de Seedance, medidos: resolvemos la fórmula de tokens de vídeo

23 de julio de 2026 · seedance · video-generation · pricing

Seedance factura W×H×(24s+1)/1024 tokens de vídeo; hemos resuelto la fórmula hasta el último token. 720p se factura como 1248×704 y, aunque 4k tiene una tarifa menor, cuesta 2.1x más por segundo. Datos medidos.

Guía de prompting para GPT-5.6: dos valores predeterminados que cuestan 1.5x y 10x más

21 de julio de 2026 · gpt-5.6 · prompting · prompt-cache · reasoning

Los valores predeterminados de GPT-5.6 salen caros: omitir reasoning_effort cuesta 1.5x frente a 'none'; los prefijos sin marcar cuestan 10x más que las lecturas desde caché. Guía práctica basada en mediciones para estructurar las solicitudes.

Precios de la API de Kimi K3, medidos: desactiva el razonamiento «siempre activo»

20 de julio de 2026 · kimi-k3 · reasoning · pricing · caching

La documentación de Kimi K3 dice que el razonamiento no se puede desactivar. reasoning_effort:'none' funciona y reduce 6 veces el coste de las consultas simples. Medimos los niveles de esfuerzo, el umbral de caché y las tarifas en 9 idiomas.

Precios de GPT Realtime API: hablar cuesta 4 veces más que escuchar (medido)

19 de julio de 2026 · gpt-realtime · voice · pricing · caching

gpt-realtime-2.1 cobra $0.019/min por escuchar y $0.077/min por hablar; el silencio es gratis y reproducir desde caché cuesta 1/80. Tarifas medidas en $/min, funcionamiento de la caché y costes por escenario.

Uso de tokens en LLM: por qué una respuesta de 4 tokens factura 217

13 de julio de 2026 · token-usage · llm-cost · reasoning

Mediciones en GPT-5.6, Claude Fable 5, Qwen3.7-max y cinco familias más: el razonamiento domina la factura de salida. Cómo interpretar y limitar cada campo de uso.

Mínimos de prompt cache: la documentación se queda corta entre 1.4 y 2.4x

12 de julio de 2026 · prompt-cache · llm-cost · evaluation

Los proveedores publican un mínimo de tokens para el prompt cache. Las mediciones entre familias de LLM muestran que el cache automático necesita entre 1.4 y 2.4x más de lo indicado; el cache explícito de Claude sí coincide.

Guía de costes de GPT-5.6: 90% de descuento con prompt caching y reasoning effort

10 de julio de 2026 · gpt-5.6 · prompt-cache · reasoning · cost

Medimos las dos palancas de coste de GPT-5.6: los breakpoints explícitos facturan el input cacheado al 10% de la tarifa, y no enviar reasoning_effort cuesta 1.5x más que fijarlo en none.

¿Qué LLM es más barato para tu idioma? Costes medidos por tokenizer

8 de julio de 2026 · claude-fable-5 · tokenizer · llm-cost · i18n

GPT-5.5 factura menos tokens en idiomas europeos, Kimi en chino y DeepSeek en japonés; Claude Fable 5, Opus 4.8 y Sonnet 5 consumen entre 1.2 y 2.3 veces más. Datos medidos.

Claude Fable 5 para agentes: rechazos durante tool calls y coste frente a GLM 5.2

5 de julio de 2026 · claude-fable-5 · glm-5.2 · agents · cost

Claude Fable 5 en cinco cargas de agentes frente a glm-5.2, opus-4-8 y sonnet-5: rechazos durante tool calls, razonamiento adaptativo y costes que varían entre 5 y 15 veces según el tipo de carga.

Caché de prompts en LangChain: configuraciones que sí aciertan

4 de julio de 2026 · prompt-cache · langchain · tutorial

La sintaxis más cómoda de LangChain desactiva silenciosamente la caché de prompts de Claude. Soluciones medidas: cache_control en bloques de contenido, ubicación de variables y campos de uso.

El nuevo tokenizer de Claude Sonnet 5: un 41% más de tokens por prompt

1 de julio de 2026 · claude-sonnet-5 · prompt-cache · cost · model-update

Con el nuevo tokenizer de Claude Sonnet 5, el mismo texto genera cerca de un 41% más de tokens que en Sonnet 4.6, lo que cambia los costes, los presupuestos y los requisitos para usar la caché en el gateway.

Llamadas a herramientas de GLM 5.2 en bucles de agentes: lo que oculta la compatibilidad con OpenAI

30 de junio de 2026 · glm-5.2 · tool-calling · agents · llm-gateway

GLM 5.2 usa la API de llamadas a herramientas de OpenAI, pero devuelve texto junto con las llamadas y muestra el razonamiento en el mismo turno. Así se compara con OpenAI y Anthropic.

Coste de las API de transcripción: 7 modelos con el mismo audio

25 de junio de 2026 · transcription · asr · speech-to-text · cost

Siete modelos de transcripción, un conjunto de audios multilingües y un único gateway: el coste por minuto va de $0.0020 a $0.0164, y la precisión no es el factor diferencial.

Coste de las API de generación de imágenes: comparativa de 5 modelos ($0.006–$0.039)

19 de junio de 2026 · image-generation · billing · llm-gateway · cost

Cinco modelos de generación de imágenes, los mismos prompts y un único gateway: entre $0.006 y $0.039 por imagen con la configuración predeterminada, además de un ajuste de calidad que multiplica por 36 la factura de uno de los modelos. Datos medidos.

Caché de LLM de pesos abiertos: por qué la tuya depende de la ruleta del proveedor

14 de junio de 2026 · prompt-cache · open-weight-llm · inference · deepseek

En los LLM de pesos abiertos, el motor de inferencia resuelve la caché de prompts, pero el routing la rompe. Un mapa de cinco capas, medido con DeepSeek, Qwen y Kimi.

Caché de Claude Fable 5: mismo contrato, factura 2.9x mayor que con Opus 4.6

10 de junio de 2026 · claude-fable-5 · prompt-cache · tokenizer · model-update

Claude Fable 5 ya está disponible en Synthorai. Medimos la caché de prompts, el TTL, la tokenización y el coste frente a Opus 4.6/4.8: mismo contrato de caché, nuevo tokenizer y una factura ~2.9x mayor.

Deriva de proveedor: cómo el enrutamiento predeterminado dispara el coste de los LLM

5 de junio de 2026 · prompt-cache · llm-gateway · routing

Con el enrutamiento predeterminado de un gateway multiproveedor, solicitudes idénticas se reparten entre upstreams con cachés independientes. La tasa de aciertos se desploma y la factura sube.

¿Tu gateway de LLM miente sobre la caché? Audítalo en 5 minutos

2 de junio de 2026 · llm-gateway · prompt-cache · observability

Un gateway puede informar aciertos de caché y cobrar la tarifa completa. Un único script audita en cinco minutos tanto la caché automática (DeepSeek) como la basada en marcadores (Claude).

Claude Opus 4.8 en Synthorai: caché y TTL frente a 4.7/4.6

29 de mayo de 2026 · claude-opus-4-8 · prompt-cache · model-update

Claude Opus 4.8 ya está disponible en Synthorai. Medimos el comportamiento de la caché de prompts y el TTL frente a Opus 4.7/4.6: qué se mantiene y qué cambio de tokenizador conviene revisar.

Mejor LLM según el caso de uso (2026): matriz de costes para chat, RAG y agentes

25 de mayo de 2026 · llm-selection · agents · rag · chatbot

¿Chat, RAG o agentes? Elige el modelo más barato que mantenga el rendimiento, con estimaciones de costes medidas (una tarea de agente de 15 pasos y RAG con 100K consultas/día) y una matriz de decisión.

Caché de prompts para LLM en Python: tutorial práctico con código

24 de mayo de 2026 · prompt-cache · tutorial · python

Ahorro medido con caché de prompts en Claude, GPT-5, Gemini 2.5, DeepSeek-v4 y Qwen3 mediante el gateway compatible con OpenAI de Synthorai. Datos reales de usage.cost y TTFT.

¿Qué caché de prompts para LLM es más barata? Comparativa de 5 proveedores (2026)

23 de mayo de 2026 · prompt-cache · llm-providers · evaluation

Claude, GPT-5.x, Gemini, DeepSeek y Qwen ofrecen cinco enfoques de caché: explícita o automática, TTL de 5 minutos o 1 hora y lecturas entre 0.1x y 0.5x. Comparativa con mediciones en las mismas condiciones.

Cómo funciona el almacenamiento en caché de prompts en LLM: KV cache y TTL

22 de mayo de 2026 · prompt-cache · transformer · llm-architecture

Cómo funciona realmente la caché de prompts en LLM: las matemáticas de atención de los Transformer que permiten reutilizar K/V, el equilibrio entre memoria y cómputo que determina el TTL y por qué reduce el coste y el TTFT.

Blog de ingeniería

Reasoning effort en GLM 5.2: el ajuste que reduce el coste 20 veces (medido)

Claude Fable 5 no funciona con ZDR: la retención de 30 días es obligatoria

Caché de prompts en LLM: guía completa de 2026 (reduce el coste de entrada entre un 50 y un 90%)