Blog de ingeniería
Problemas reales de ingeniería que encontramos al crear una pasarela de API LLM.
-
Claude Fable 5: Caché, Tokenizador y Costos vs Opus 4.6
Claude Fable 5 ya está disponible en Synthorai. Medimos el caché de prompts, TTL, tokenización y costos vs Opus 4.6/4.8: mismo contrato de caché, nuevo tokenizador, ~2.9x la factura.
-
Deriva de proveedor: cómo el enrutamiento por defecto infla el coste de los LLM
En el enrutamiento por defecto de un gateway multiproveedor, las solicitudes idénticas se dispersan entre upstreams con cachés separadas. La tasa de aciertos se desploma y tu factura sube.
-
¿Tu gateway de LLM miente sobre la caché? Una auditoría en 5 min
Los gateways pueden informar aciertos de caché mientras facturan el precio completo. Un script audita en cinco minutos tanto la caché automática (DeepSeek) como la basada en marcadores (Claude).
-
Claude Opus 4.8 en Synthorai: caché y TTL frente a 4.7/4.6
Claude Opus 4.8 ya está disponible en Synthorai. Comportamiento medido de la caché de prompts y del TTL frente a Opus 4.7/4.6 — qué se mantiene, más el cambio del tokenizador que debes revisar.
-
Caché de prompts en LLM: la guía completa de 2026
Una serie de cuatro partes sobre la caché de prompts en LLM: arquitectura de la caché KV, comparación de proveedores, tutorial de Python funcional y una matriz de decisión del mejor modelo según el caso de uso.
-
Caché de prompts LLM #4: el mejor modelo para chat, RAG y agentes
Matriz de decisión que asocia cada carga de trabajo LLM — chatbots, API de RAG, agentes de IA — con el modelo y la estrategia de caché adecuados. Precios reales de 2026, cálculo de costes por escenario.
-
Caché de prompts LLM #3: tutorial funcional en Python
Ahorros de caché de prompt medidos en Claude, GPT-5, Gemini 2.5, DeepSeek-v4 y Qwen3 a través de la pasarela compatible con OpenAI de Synthorai. usage.cost y TTFT reales.
-
Caché de prompts en LLM #2: comparar Claude, GPT, Gemini, DeepSeek
Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 y Qwen3 exponen el caché de prompts de cinco formas distintas: comparación de funciones medida en 2026.
-
Caché de prompts en LLM #1: cómo funcionan la caché KV y el TTL
Cómo funciona realmente la caché de prompts en LLM: las matemáticas de la atención del Transformer detrás de la reutilización de K/V, el equilibrio memoria-cómputo que define el TTL y por qué reduce el coste y el TTFT.