Claude Fable 5: キャッシュ・トークナイザー・Opus 4.6比コスト
目次
claude-fable-5 がSynthoraiゲートウェイで利用可能になりました。Claudeラインに対してキャッシュを使っている方にとって朗報なのは、キャッシュとTTLの契約がそのまま引き継がれる点です。cache_control マーカー、5分・1時間のTTL、書き込みプレミアム、深い読み取り割引——すべて同一です。文字列を1つ変えるだけでキャッシュコードを移行できます。
予算を組む際に注意すべきはキャッシュの仕組みではなく、料金です。Fable 5のリスト価格はOpusトークン価格の2倍であり、同じ英語テキストをOpus 4.6より約45%多いトークン数にトークナイズします(4.6以降のトークナイザーを採用しており、Opus 4.8と同一)。この2つの乗数が重なります。本記事ではすべてを実測しているので、ご自身で測定する手間を省けます。
以下の数値はすべて、2026-06-10に
https://synthorai.io/(Anthropicネイティブ/v1/messages)に対して、安定した約6,600〜9,600トークンの英語システムプロンプト、小さなmax_tokens、単一シーケンシャル実行で計測したものです。コスト数値はゲートウェイのusage.costフィールドから読み取っています。比率(トークン数、書き込みプレミアム、読み取り割引、モデル間コスト)が移植可能な部分であり、絶対的なドル金額はプロンプトに応じてスケールします。引用する前に、ご自身のプロンプトで再現検証してください。
利用可能状況
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-fable-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost
claude-opus-4-6 → claude-fable-5 に変えるだけで、キャッシュパスの何も変更する必要はありません。Fable 5はAnthropicネイティブモデルで、コンテキストウィンドウは1Mトークンです。動作上の注意点として、これは推論モデルであり、デフォルトでthinkingトークンを出力します——「reply OK」のような些細な応答でも、私たちの実行では output_tokens_details.thinking_tokens > 0 が返されました(Opus 4.6/4.8はゼロを返します)。出力トークンの予算を適切に見積もってください。cache_control の仕組みについてはキャッシュチュートリアルを、キャッシュが存在する理由のアーキテクチャについてはシリーズ第1回を参照してください。
注目ポイント:Fable 5は新トークナイザーを採用
Opusラインのトークン数は4.7世代で増加しました。4.6では約6,600トークンだった同じ英語テキストが、4.8では約9,600トークンになります。Fable 5は新しい側に位置します——同一テキストがOpus 4.8とまったく同じトークン数を報告します。
| モデル | 入力トークン数(同一テキスト) | トークナイザー世代 |
|---|---|---|
claude-opus-4-6 | 6,614 | pre-4.7 |
claude-opus-4-8 | 9,619 | post-4.7 |
claude-fable-5 | 9,619 | post-4.7(4.8と同一) |
同じシステムプロンプトがFable 5ではOpus 4.6より約45%多いトークン数になります(9,619 / 6,614 = 1.45)。移行前に最も重要な数値として覚えておいてください。コスト、1,024トークンのキャッシュ適格フロア、コールあたりの予算など、すべての下流の数値がトークン単位で計算されるからです。
これは実測による観察です——同一テキスト、Fable 5とOpus 4.8で同一のトークン数、Opus 4.6より約45%多い——4.7世代で導入されたトークナイザー/語彙の更新と最も整合します。4.6以前から移行する場合は再計測してください。4.7/4.8から移行する場合はパリティを期待できます。
キャッシュ動作:契約は変わらず
各モデルでキャッシュなし/コールドライト/ウォームリードの同一シーケンスを実行しました。割引構造はエンドツーエンドで同一です——Fable 5は cache_control を尊重し、同じusageフィールド(cache_creation_input_tokens、cache_read_input_tokens、ephemeral_5m / ephemeral_1h バケット)を報告します。
| モデル | 5分キャッシュ書き込み | 1時間キャッシュ書き込み | ウォームリード |
|---|---|---|---|
claude-opus-4-6 | 1.25x | 2.00x | キャッシュなしの約9% |
claude-opus-4-8 | 1.25x | 2.00x | キャッシュなしの約6% |
claude-fable-5 | 1.24x | 1.99x | キャッシュなしの約6% |
3モデル全体で2つの不変条件が成立します:
- 書き込みプレミアム ≈ 1.25x(5分)、≈ 2x(1時間)。 最初の(コールド)コールは、5分エントリを作成するためにキャッシュなし価格の約1.25倍、1時間エントリには約2倍のコストがかかります。損益分岐点は1ヒットです。
- 読み取り割引 ≈ 90%以上。 Fable 5でのウォームキャッシュリードは、キャッシュなしコールの約6%のコスト——約94%の割引で、Anthropicが文書化している約90%のキャッシュリード経済性と一致(わずかに上回る)します。TTLに関わらず、リードは深く割引されたままです。
パーセンテージはライン全体でフラットです。Opus 4.7 → 4.8のステップと同様に、Fable 5での絶対的な請求額の増加は価格とトークンの話であり、キャッシュ経済性の話ではありません——次で説明します。
TTL動作:両ウィンドウが有効
Fable 5はラインの他のモデルと同じ2つのTTLをサポートします:5分のスライディングデフォルトとオプトインの1時間ウィンドウです。コールごとにユニークなプレフィックスを使用して各TTLを分離し(古いエントリが結果を汚染しないよう)、usageオブジェクトが正しいバケット——cache_creation.ephemeral_5m_input_tokens または ephemeral_1h_input_tokens——を報告することを確認しました。
# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}
1時間の書き込みはキャッシュなしの約2倍のコスト(5分の書き込みは約1.25倍)で、リードはTTLに関わらず深い割引のままです——Opus 4.6/4.8と同一です。Opusでライブチャットに 5m、人間が介在する一時停止のあるエージェントに 1h を選んでいた場合、Fable 5でもその選択を維持してください。
コストの話:2倍の価格 × 1.45倍のトークン
ここがFable 5が実際に異なる点です。請求額を押し上げる2つの要因があり、それらが掛け合わさります。
1. リスト価格はOpusティアの2倍。
| モデル | 入力($/M) | 出力($/M) | キャッシュリード($/M) |
|---|---|---|---|
claude-opus-4-6 / 4-8 | 5 | 25 | 0.5 |
claude-fable-5 | 10 | 50 | 1 |
2. 同じテキストが4.6より約45%多いトークン数(上記のトークナイザーシフト)。
これらを掛け合わせると、同じ英語プロンプトのコストが大幅に増加します。各モデルで同一のシステムプロンプトに対して実測した結果(ゲートウェイ usage.cost、同一の単一実行):
| 比較 | トークン比 | 価格比 | 同一プロンプトのコスト比(実測) |
|---|---|---|---|
| Fable 5 vs Opus 4.8 | 1.00x | 2.0x | 2.0x |
| Fable 5 vs Opus 4.6 | 1.45x | 2.0x | 2.9x |
つまり、Opus 4.8(同じトークナイザー)と比較すると、Fable 5はきれいな2倍——純粋な価格プレミアムです。Opus 4.6と比較すると、トークナイザーの変化が価格変化に重なり、同じプロンプトで約2.9倍のコストになります。キャッシュの割引は変わりませんが、それが適用される絶対的なベースが4.6の約2.9倍になっています。4.6を基準にコールあたりの予算を設定していた場合は、再計算してください。
実際的な影響として:1,024トークンのキャッシュ適格フロアを再確認してください。 Anthropicは最小サイズ以上のプレフィックスのみをキャッシュします。4.6で(旧トークナイザーのトークン数で)フロアをわずかに下回っていたプロンプトが、Fable 5(約45%多いトークン)ではクリアできる可能性があります——逆に、旧カウントに基づいたサイズ見積もりでは逆の問題が起きる可能性もあります。ローカルのトークナイザーから推定するのではなく、常にライブレスポンスから cache_creation_input_tokens / cache_read_input_tokens を読み取ってください。
移行チェックリスト(Opus → Fable 5)
- ✅ キャッシュコードはそのまま移行可能。
cache_controlマーカー、ブレークポイント数(最大4)、ttl: "1h"、usageフィールド名——すべて同一。 - ✅ TTLの選択はそのまま移行可能。 ライブ/セッションワークロードには5分、一時停止のあるバースト/エージェントには1時間。
- ✅ 割引経済性はそのまま移行可能。 読み取り約90%以上オフ、書き込み約1.25倍(5分)、約2倍(1時間)。
- ⚠️ 絶対コストを再予算化。 Fable 5はOpusのトークンあたり約2倍、Opus 4.6比で同一プロンプトのコストが約2.9倍。割引パーセンテージは変わらないが、それが適用されるベースは変わる。
- ⚠️ 4.6以前から移行する場合はトークン数を再計測(同じテキストで約45%増を想定)。4.7/4.8からの場合はパリティを期待。
- ⚠️ デフォルトのthinkingトークンを考慮。 Fable 5はデフォルトで推論トークンを出力——出力レート($50/M)で課金される。不要な場合はthinkingを制限または無効化。
まとめ
すでにClaudeに対してキャッシュを使っているチームにとって、claude-fable-5 への統合は簡単です。キ