工程部落格
我們在打造 LLM API 閘道過程中遇到的真實工程問題。
-
Claude Fable 5:快取、分詞器與 Opus 4.6 的成本比較
Claude Fable 5 已在 Synthorai 上線。本文實測提示快取、TTL、分詞方式及與 Opus 4.6/4.8 的成本差異:快取合約相同、分詞器已更新、費用約為 2.9 倍。
-
供應商漂移:預設路由如何推高 LLM 成本
在多供應商閘道的預設路由下,相同的請求被分散到擁有獨立快取的各個上游。命中率暴跌,帳單跟著攀升。
-
你的 LLM 閘道在快取上說謊了嗎?5 分鐘稽核
閘道可能在回應裡報告快取命中,卻仍按全價計費。一個指令稿就能在五分鐘內稽核自動快取(DeepSeek)和以標記為基礎的快取(Claude)。
-
Synthorai 上的 Claude Opus 4.8:快取與 TTL 對比 4.7/4.6
Claude Opus 4.8 已在 Synthorai 上線。實測對比 Opus 4.7/4.6 的提示快取與 TTL 行為——哪些維持不變,以及需要重新核對的權杖化器變化。
-
LLM 提示快取:2026 完整指南
關於 LLM 提示快取的四部分系列:KV 快取架構、各服務商比較、可執行的 Python 教學,以及依使用情境挑選最佳模型的決策矩陣。
-
LLM 提示詞快取 #4:聊天、RAG 與代理的最佳模型
將 LLM 工作負載——聊天機器人、RAG API、AI 代理——對應到合適模型與快取策略的決策矩陣。2026 年真實定價,每個情境的成本計算。
-
LLM 提示快取 #3:可執行的 Python 教學
透過 Synthorai 相容 OpenAI 的閘道,實測 Claude、GPT-5、Gemini 2.5、DeepSeek-v4 與 Qwen3 的提示快取節省效果。真實的 usage.cost 與 TTFT。
-
LLM 提示快取 #2:對比 Claude、GPT、Gemini、DeepSeek
Anthropic Claude、OpenAI GPT-5、Gemini 2.5、DeepSeek-v4 與 Qwen3 以五種截然不同的形態暴露提示快取——基於 2026 年實測的功能對比。
-
LLM 提示詞快取 #1:KV 快取與 TTL 的運作原理
LLM 提示詞快取究竟如何運作:K/V 重用背後的 Transformer 注意力數學、決定 TTL 的記憶體-算力取捨,以及它為何能同時降低成本與 TTFT。