工程博客

我们在构建 LLM API 网关过程中遇到的真实工程问题。

GLM 5.2 Reasoning Effort：实测成本降低 20 倍的关键设置

GLM 5.2 Reasoning Effort：实测成本降低 20 倍的关键设置

2026年6月24日 · glm · coding · llm-gateway · cost · reasoning

同一道编程题可得到相同答案：正确设置推理强度时，GLM 5.2 成本仅为 0.0031 美元；采用不设上限的默认配置则需 0.062 美元。前者成本降低 20 倍、速度提高 30 倍，并说明如何按不同任务调整 reasoning effort 参数。

Claude Fable 5 无法在 ZDR 下运行：必须保留数据 30 天

Claude Fable 5 无法在 ZDR 下运行：必须保留数据 30 天

2026年6月12日 · claude-fable-5 · data-retention · compliance

ZDR 组织调用 claude-fable-5 时会收到 400 错误，因为 Claude API、Amazon Bedrock、Google Vertex AI 和 Azure AI Foundry 均未提供数据保留退出选项。本文说明该限制对 HIPAA、COPPA 合规工作负载的影响，并给出相应的请求路由修复方案。

LLM 提示词缓存：2026 完整指南（输入成本降低 50-90%）

LLM 提示词缓存：2026 完整指南（输入成本降低 50-90%）

2026年5月26日 · prompt-cache · series-overview · llm-architecture

详解 Claude、GPT、Gemini 和 DeepSeek 的提示词缓存机制，说明缓存复用如何将输入成本降低 50-90%，并使首个令牌生成时间（TTFT）提升 3-10 倍。涵盖缓存架构、各提供商实现差异、适用场景及可运行的 Python 示例代码。