工程博客

我们在构建 LLM API 网关过程中遇到的真实工程问题。

  • Claude Fable 5:缓存、分词器与 Opus 4.6 的成本对比

    2026年6月10日 · claude-fable-5 · prompt-cache · tokenizer · model-update

    Claude Fable 5 已在 Synthorai 上线。本文实测了提示词缓存、TTL、分词及与 Opus 4.6/4.8 的成本对比:缓存契约不变,分词器已更新,账单约为原来的 2.9 倍。

  • 供应商漂移:默认路由如何抬高 LLM 成本

    2026年6月5日 · prompt-cache · llm-gateway · routing

    在多供应商网关的默认路由下,相同的请求会分散到拥有独立缓存的各个上游。命中率暴跌,账单飙升。

  • 你的 LLM 网关在缓存上撒谎了吗?5 分钟审计

    2026年6月2日 · llm-gateway · prompt-cache · observability

    网关可能在响应里报告缓存命中,却仍按全价计费。一个脚本就能在五分钟内审计自动缓存(DeepSeek)和基于标记的缓存(Claude)。

  • Synthorai 上的 Claude Opus 4.8:缓存与 TTL 对比 4.7/4.6

    2026年5月29日 · claude-opus-4-8 · prompt-cache · model-update

    Claude Opus 4.8 已在 Synthorai 上线。实测对比 Opus 4.7/4.6 的提示缓存与 TTL 行为——哪些保持不变,以及需要重新核对的分词器变化。

  • LLM 提示缓存:2026 完全指南

    2026年5月26日 · prompt-cache · series-overview · llm-architecture

    关于 LLM 提示缓存的四部分系列:KV 缓存架构、各服务商对比、可运行的 Python 教程,以及按使用场景选择最佳模型的决策矩阵。

  • LLM 提示词缓存 #4:聊天、RAG 与智能体的最佳模型

    2026年5月25日 · llm-selection · agents · rag · chatbot

    把 LLM 工作负载——聊天机器人、RAG API、AI 智能体——匹配到合适的模型与缓存策略的决策矩阵。2026 年真实定价,每个场景的成本计算。

  • LLM 提示缓存 #3:可运行的 Python 教程

    2026年5月24日 · prompt-cache · tutorial · python

    通过 Synthorai 兼容 OpenAI 的网关,实测 Claude、GPT-5、Gemini 2.5、DeepSeek-v4 和 Qwen3 的提示缓存节省效果。真实的 usage.cost 与 TTFT。

  • LLM 提示缓存 #2:对比 Claude、GPT、Gemini、DeepSeek

    2026年5月23日 · prompt-cache · llm-providers · evaluation

    Anthropic Claude、OpenAI GPT-5、Gemini 2.5、DeepSeek-v4 和 Qwen3 以五种截然不同的形态暴露提示缓存——基于 2026 年实测的功能对比。

  • LLM 提示词缓存 #1:KV 缓存与 TTL 的工作原理

    2026年5月22日 · prompt-cache · transformer · llm-architecture

    LLM 提示词缓存究竟如何运作:K/V 复用背后的 Transformer 注意力数学、决定 TTL 的内存-算力权衡,以及它为何能同时降低成本与 TTFT。