工程部落格

我們在打造 LLM API 閘道過程中遇到的真實工程問題。

GLM 5.2 Reasoning Effort：實測只要設對，成本就能降到 1/20

GLM 5.2 Reasoning Effort：實測只要設對，成本就能降到 1/20

2026年6月24日 · glm · coding · llm-gateway · cost · reasoning

同一份程式答案，正確設定推理強度僅花費 $0.0031，GLM 5.2 採用不設上限的預設值則需 $0.062，前者成本低 20 倍、速度快 30 倍。本文比較兩種設定的差異，並說明如何依不同程式設計工作調整 reasoning effort，避免不必要的推理成本與等待時間。

Claude Fable 5 無法在 ZDR 下執行：強制保留資料 30 天

Claude Fable 5 無法在 ZDR 下執行：強制保留資料 30 天

2026年6月12日 · claude-fable-5 · data-retention · compliance

ZDR 組織呼叫 claude-fable-5 時會收到 400 錯誤：Claude API、Bedrock、Vertex 與 Foundry 均無法選擇退出。本文說明這對 HIPAA／COPPA 的影響，以及如何透過路由解決。

LLM 提示快取完整指南（2026）：輸入成本降低 50-90%

LLM 提示快取完整指南（2026）：輸入成本降低 50-90%

2026年5月26日 · prompt-cache · series-overview · llm-architecture

解析 Claude、GPT、Gemini 與 DeepSeek 的提示快取運作方式，說明如何重複使用提示前綴，將輸入成本降低 50-90%，並讓首個權杖產生時間（TTFT）加快 3-10 倍。內容涵蓋快取架構、各供應商機制與差異比較，以及可實作的 Python 程式碼範例。