工程博客
我们在构建 LLM API 网关过程中遇到的真实工程问题。
-
Claude Fable 5:缓存、分词器与 Opus 4.6 的成本对比
Claude Fable 5 已在 Synthorai 上线。本文实测了提示词缓存、TTL、分词及与 Opus 4.6/4.8 的成本对比:缓存契约不变,分词器已更新,账单约为原来的 2.9 倍。
-
供应商漂移:默认路由如何抬高 LLM 成本
在多供应商网关的默认路由下,相同的请求会分散到拥有独立缓存的各个上游。命中率暴跌,账单飙升。
-
你的 LLM 网关在缓存上撒谎了吗?5 分钟审计
网关可能在响应里报告缓存命中,却仍按全价计费。一个脚本就能在五分钟内审计自动缓存(DeepSeek)和基于标记的缓存(Claude)。
-
Synthorai 上的 Claude Opus 4.8:缓存与 TTL 对比 4.7/4.6
Claude Opus 4.8 已在 Synthorai 上线。实测对比 Opus 4.7/4.6 的提示缓存与 TTL 行为——哪些保持不变,以及需要重新核对的分词器变化。
-
LLM 提示缓存:2026 完全指南
关于 LLM 提示缓存的四部分系列:KV 缓存架构、各服务商对比、可运行的 Python 教程,以及按使用场景选择最佳模型的决策矩阵。
-
LLM 提示词缓存 #4:聊天、RAG 与智能体的最佳模型
把 LLM 工作负载——聊天机器人、RAG API、AI 智能体——匹配到合适的模型与缓存策略的决策矩阵。2026 年真实定价,每个场景的成本计算。
-
LLM 提示缓存 #3:可运行的 Python 教程
通过 Synthorai 兼容 OpenAI 的网关,实测 Claude、GPT-5、Gemini 2.5、DeepSeek-v4 和 Qwen3 的提示缓存节省效果。真实的 usage.cost 与 TTFT。
-
LLM 提示缓存 #2:对比 Claude、GPT、Gemini、DeepSeek
Anthropic Claude、OpenAI GPT-5、Gemini 2.5、DeepSeek-v4 和 Qwen3 以五种截然不同的形态暴露提示缓存——基于 2026 年实测的功能对比。
-
LLM 提示词缓存 #1:KV 缓存与 TTL 的工作原理
LLM 提示词缓存究竟如何运作:K/V 复用背后的 Transformer 注意力数学、决定 TTL 的内存-算力权衡,以及它为何能同时降低成本与 TTFT。