エンジニアリングブログ

LLM API ゲートウェイを構築する中で直面した実際のエンジニアリング課題。

GLM 5.2 の reasoning effort：設定次第でコストが 20 分の 1 に（実測）

GLM 5.2 の reasoning effort：設定次第でコストが 20 分の 1 に（実測）

2026年6月24日 · glm · coding · llm-gateway · cost · reasoning

同じコーディング回答でも、GLM 5.2 の reasoning effort を適切に設定すれば $0.0031、上限なしのデフォルトでは $0.062。コストは 20 分の 1、速度は 30 倍。タスク別の設定方法を解説する。

Claude Fable 5 は ZDR では利用不可：30 日間のデータ保持が必須

Claude Fable 5 は ZDR では利用不可：30 日間のデータ保持が必須

2026年6月12日 · claude-fable-5 · data-retention · compliance

ZDR 組織が claude-fable-5 を呼ぶと 400 エラーになる。Claude API、Bedrock、Vertex、Foundry のいずれにもオプトアウトはない。HIPAA／COPPA への影響と routing による対処を解説する。

LLM プロンプトキャッシュ完全ガイド 2026：入力コストを 50～90% 削減

LLM プロンプトキャッシュ完全ガイド 2026：入力コストを 50～90% 削減

2026年5月26日 · prompt-cache · series-overview · llm-architecture

Claude、GPT、Gemini、DeepSeek のプロンプトキャッシュの仕組みを解説。入力コストを 50～90% 削減し、TTFT を 3～10 倍高速化する。アーキテクチャ、プロバイダー比較、Python コードを網羅。