工程部落格

我們在打造 LLM API 閘道過程中遇到的真實工程問題。

  • Claude Fable 5:快取、分詞器與 Opus 4.6 的成本比較

    2026年6月10日 · claude-fable-5 · prompt-cache · tokenizer · model-update

    Claude Fable 5 已在 Synthorai 上線。本文實測提示快取、TTL、分詞方式及與 Opus 4.6/4.8 的成本差異:快取合約相同、分詞器已更新、費用約為 2.9 倍。

  • 供應商漂移:預設路由如何推高 LLM 成本

    2026年6月5日 · prompt-cache · llm-gateway · routing

    在多供應商閘道的預設路由下,相同的請求被分散到擁有獨立快取的各個上游。命中率暴跌,帳單跟著攀升。

  • 你的 LLM 閘道在快取上說謊了嗎?5 分鐘稽核

    2026年6月2日 · llm-gateway · prompt-cache · observability

    閘道可能在回應裡報告快取命中,卻仍按全價計費。一個指令稿就能在五分鐘內稽核自動快取(DeepSeek)和以標記為基礎的快取(Claude)。

  • Synthorai 上的 Claude Opus 4.8:快取與 TTL 對比 4.7/4.6

    2026年5月29日 · claude-opus-4-8 · prompt-cache · model-update

    Claude Opus 4.8 已在 Synthorai 上線。實測對比 Opus 4.7/4.6 的提示快取與 TTL 行為——哪些維持不變,以及需要重新核對的權杖化器變化。

  • LLM 提示快取:2026 完整指南

    2026年5月26日 · prompt-cache · series-overview · llm-architecture

    關於 LLM 提示快取的四部分系列:KV 快取架構、各服務商比較、可執行的 Python 教學,以及依使用情境挑選最佳模型的決策矩陣。

  • LLM 提示詞快取 #4:聊天、RAG 與代理的最佳模型

    2026年5月25日 · llm-selection · agents · rag · chatbot

    將 LLM 工作負載——聊天機器人、RAG API、AI 代理——對應到合適模型與快取策略的決策矩陣。2026 年真實定價,每個情境的成本計算。

  • LLM 提示快取 #3:可執行的 Python 教學

    2026年5月24日 · prompt-cache · tutorial · python

    透過 Synthorai 相容 OpenAI 的閘道,實測 Claude、GPT-5、Gemini 2.5、DeepSeek-v4 與 Qwen3 的提示快取節省效果。真實的 usage.cost 與 TTFT。

  • LLM 提示快取 #2:對比 Claude、GPT、Gemini、DeepSeek

    2026年5月23日 · prompt-cache · llm-providers · evaluation

    Anthropic Claude、OpenAI GPT-5、Gemini 2.5、DeepSeek-v4 與 Qwen3 以五種截然不同的形態暴露提示快取——基於 2026 年實測的功能對比。

  • LLM 提示詞快取 #1:KV 快取與 TTL 的運作原理

    2026年5月22日 · prompt-cache · transformer · llm-architecture

    LLM 提示詞快取究竟如何運作:K/V 重用背後的 Transformer 注意力數學、決定 TTL 的記憶體-算力取捨,以及它為何能同時降低成本與 TTFT。