エンジニアリングブログ
LLM API ゲートウェイを構築する中で直面した実際のエンジニアリング課題。
-
Claude Fable 5: キャッシュ・トークナイザー・Opus 4.6比コスト
Claude Fable 5がSynthoraiで利用可能に。プロンプトキャッシュ・TTL・トークナイズ・Opus 4.6/4.8比コストを実測:キャッシュ契約は同一、新トークナイザー採用、料金は約2.9倍。
-
プロバイダードリフト: デフォルトルーティングがLLMコストを膨らませる仕組み
マルチプロバイダー型ゲートウェイのデフォルトルーティングでは、同一のリクエストが個別のキャッシュを持つ複数のアップストリームに分散します。ヒット率は急落し、請求額は上昇します。
-
あなたの LLM ゲートウェイはキャッシュについて嘘をついていないか?5分でできる監査
ゲートウェイはキャッシュヒットを報告しながら満額で課金できてしまう。1本のスクリプトで、自動キャッシュ(DeepSeek)とマーカー方式(Claude)の両方を5分で監査する。
-
Synthorai で使う Claude Opus 4.8:キャッシュと TTL を 4.7/4.6 と比較
Claude Opus 4.8 が Synthorai で利用可能に。Opus 4.7/4.6 とのプロンプトキャッシュおよび TTL の挙動を実測——何が引き継がれ、再確認すべきトークナイザーの変更とは。
-
LLM プロンプトキャッシュ:2026年完全ガイド
LLM プロンプトキャッシュに関する4部構成シリーズ:KV キャッシュのアーキテクチャ、プロバイダー比較、動作する Python チュートリアル、そしてユースケース別の最適モデル選定マトリクス。
-
LLM プロンプトキャッシュ #4:チャット・RAG・エージェントの最適モデル
LLM ワークロード(チャットボット、RAG API、AI エージェント)を適切なモデルとキャッシュ戦略に対応させる意思決定マトリクス。2026 年の実際の価格、シナリオごとのコスト計算。
-
LLM プロンプトキャッシュ #3:動く Python チュートリアル
Synthorai の OpenAI 互換ゲートウェイ経由で、Claude、GPT-5、Gemini 2.5、DeepSeek-v4、Qwen3 のプロンプトキャッシュ節約効果を実測。本物の usage.cost と TTFT。
-
LLM プロンプトキャッシュ #2:Claude・GPT・Gemini・DeepSeek を比較
Anthropic Claude、OpenAI GPT-5、Gemini 2.5、DeepSeek-v4、Qwen3 はプロンプトキャッシュを 5 種類の異なる形で提供している——2026 年の実測に基づく機能比較。
-
LLM プロンプトキャッシュ #1:KV キャッシュと TTL の仕組み
LLM プロンプトキャッシュが実際にどう動くか:K/V 再利用の背後にある Transformer アテンションの数学、TTL を形づくるメモリと計算のトレードオフ、そしてなぜコストと TTFT の両方を削減できるのか。