Blog de ingeniería

Problemas reales de ingeniería que encontramos al crear una pasarela de API LLM.

  • Claude Fable 5: Caché, Tokenizador y Costos vs Opus 4.6

    10 de junio de 2026 · claude-fable-5 · prompt-cache · tokenizer · model-update

    Claude Fable 5 ya está disponible en Synthorai. Medimos el caché de prompts, TTL, tokenización y costos vs Opus 4.6/4.8: mismo contrato de caché, nuevo tokenizador, ~2.9x la factura.

  • Deriva de proveedor: cómo el enrutamiento por defecto infla el coste de los LLM

    5 de junio de 2026 · prompt-cache · llm-gateway · routing

    En el enrutamiento por defecto de un gateway multiproveedor, las solicitudes idénticas se dispersan entre upstreams con cachés separadas. La tasa de aciertos se desploma y tu factura sube.

  • ¿Tu gateway de LLM miente sobre la caché? Una auditoría en 5 min

    2 de junio de 2026 · llm-gateway · prompt-cache · observability

    Los gateways pueden informar aciertos de caché mientras facturan el precio completo. Un script audita en cinco minutos tanto la caché automática (DeepSeek) como la basada en marcadores (Claude).

  • Claude Opus 4.8 en Synthorai: caché y TTL frente a 4.7/4.6

    29 de mayo de 2026 · claude-opus-4-8 · prompt-cache · model-update

    Claude Opus 4.8 ya está disponible en Synthorai. Comportamiento medido de la caché de prompts y del TTL frente a Opus 4.7/4.6 — qué se mantiene, más el cambio del tokenizador que debes revisar.

  • Caché de prompts en LLM: la guía completa de 2026

    26 de mayo de 2026 · prompt-cache · series-overview · llm-architecture

    Una serie de cuatro partes sobre la caché de prompts en LLM: arquitectura de la caché KV, comparación de proveedores, tutorial de Python funcional y una matriz de decisión del mejor modelo según el caso de uso.

  • Caché de prompts LLM #4: el mejor modelo para chat, RAG y agentes

    25 de mayo de 2026 · llm-selection · agents · rag · chatbot

    Matriz de decisión que asocia cada carga de trabajo LLM — chatbots, API de RAG, agentes de IA — con el modelo y la estrategia de caché adecuados. Precios reales de 2026, cálculo de costes por escenario.

  • Caché de prompts LLM #3: tutorial funcional en Python

    24 de mayo de 2026 · prompt-cache · tutorial · python

    Ahorros de caché de prompt medidos en Claude, GPT-5, Gemini 2.5, DeepSeek-v4 y Qwen3 a través de la pasarela compatible con OpenAI de Synthorai. usage.cost y TTFT reales.

  • Caché de prompts en LLM #2: comparar Claude, GPT, Gemini, DeepSeek

    23 de mayo de 2026 · prompt-cache · llm-providers · evaluation

    Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4 y Qwen3 exponen el caché de prompts de cinco formas distintas: comparación de funciones medida en 2026.

  • Caché de prompts en LLM #1: cómo funcionan la caché KV y el TTL

    22 de mayo de 2026 · prompt-cache · transformer · llm-architecture

    Cómo funciona realmente la caché de prompts en LLM: las matemáticas de la atención del Transformer detrás de la reutilización de K/V, el equilibrio memoria-cómputo que define el TTL y por qué reduce el coste y el TTFT.