Claude Fable 5:快取、分詞器與 Opus 4.6 的成本比較
claude-fable-5 現已可在 Synthorai 閘道上使用。如果你已針對 Claude 系列進行快取,好消息是快取與 TTL 合約完全延續:相同的 cache_control 標記、相同的 5 分鐘與 1 小時 TTL、相同的寫入溢價、相同的深度讀取折扣。只需更改一個字串,你的快取程式碼即可直接沿用。
需要納入預算考量的不是快取機制,而是費用。Fable 5 的標價為 Opus 權杖價格的 2 倍,且相同的英文文字會產生比 Opus 4.6 多約 45% 的權杖數(它採用 4.6 之後的分詞器,與 Opus 4.8 完全相同)。這兩個乘數會疊加計算。本文將逐一實測,省去你自行驗證的功夫。
以下所有數據均於 2026-06-10 針對
https://synthorai.io/(Anthropic 原生/v1/messages)進行實測,使用穩定的約 6,600–9,600 權杖英文系統提示,max_tokens設定較小,單次循序執行。成本數據讀取自閘道的usage.cost欄位;比率(權杖數、寫入溢價、讀取折扣、跨模型成本)為可移植的部分——絕對金額會隨你的提示而變動。在引用這些數據前,請先針對你自己的提示重新實測。
可用性
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-fable-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost
將 claude-opus-4-6 替換為 claude-fable-5,快取路徑中的任何內容都無需更動。Fable 5 是一個具備 100 萬權杖上下文視窗的 Anthropic 原生模型。有一點行為需要注意:它是一個推理模型,預設會輸出思考權杖——即使是簡單的「回覆 OK」,在我們的測試中也回傳了 output_tokens_details.thinking_tokens > 0,而 Opus 4.6/4.8 則回傳零。請據此規劃輸出權杖的預算。cache_control 背後的機制詳見快取教學;快取存在的架構原因則在系列文章第一篇中說明。
重點:Fable 5 採用新版分詞器
Opus 系列的權杖數在 4.7 世代出現了跳升:相同的英文文字在 4.6 上計為約 6,600 個權杖,在 4.8 上則計為約 9,600 個。Fable 5 落在新版這一側——相同文字回報的權杖數與 Opus 4.8 完全一致。
| 模型 | 輸入權杖數(相同文字) | 分詞器世代 |
|---|---|---|
claude-opus-4-6 | 6,614 | 4.7 之前 |
claude-opus-4-8 | 9,619 | 4.7 之後 |
claude-fable-5 | 9,619 | 4.7 之後(與 4.8 完全相同) |
相同的系統提示在 Fable 5 上的權杖數比 Opus 4.6 多約 45%(9,619 / 6,614 = 1.45)。這是遷移前最重要的一個數字,因為所有下游數據——成本、1,024 權杖的快取資格門檻、每次呼叫的預算——都以權杖為單位計算。
我們描述的是一個實測觀察——相同文字在 Fable 5 和 Opus 4.8 上的權杖數完全相同,比 Opus 4.6 高約 45%——這與 4.7 世代推出的分詞器/詞彙表更新最為吻合。如果你是從 4.6 或更早版本遷移,請重新實測;如果是從 4.7/4.8 遷移,預期結果將相同。
快取行為:合約維持不變
我們對每個模型執行了相同的無快取 / 冷寫入 / 暖讀取序列。折扣結構從頭到尾完全一致——Fable 5 支援 cache_control 並回報相同的使用欄位(cache_creation_input_tokens、cache_read_input_tokens,以及 ephemeral_5m / ephemeral_1h 分類)。
| 模型 | 5 分鐘快取寫入 | 1 小時快取寫入 | 暖讀取 |
|---|---|---|---|
claude-opus-4-6 | 1.25x | 2.00x | 約無快取的 9% |
claude-opus-4-8 | 1.25x | 2.00x | 約無快取的 6% |
claude-fable-5 | 1.24x | 1.99x | 約無快取的 6% |
三個模型均遵循兩個不變量:
- 寫入溢價 ≈ 1.25x(5 分鐘),≈ 2x(1 小時)。 第一次(冷)呼叫的費用約為無快取價格的 1.25 倍(建立 5 分鐘快取項目),或 2 倍(建立 1 小時快取項目)。命中一次即可回本。
- 讀取折扣 ≈ 90% 以上。 Fable 5 的暖快取讀取費用約為無快取呼叫的 6%——折扣約 94%,與 Anthropic 文件記載的約 90% 快取讀取經濟效益相符(甚至略優)。無論 TTL 為何,讀取均維持深度折扣。
各百分比在整個系列中持平。與 Opus 4.7 → 4.8 的升級步驟相同,Fable 5 較高的絕對費用是價格與權杖數的問題,而非快取經濟效益的問題——詳見下一節。
TTL 行為:兩個時間視窗均受支援
Fable 5 支援與其他系列相同的兩種 TTL:預設的 5 分鐘滑動視窗,以及可選的 1 小時視窗。我們為每次呼叫使用唯一前綴(避免舊快取項目污染結果)來隔離各 TTL,並確認使用物件回報了正確的分類——cache_creation.ephemeral_5m_input_tokens 或 ephemeral_1h_input_tokens。
# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}
1 小時寫入的費用約為無快取的 2 倍(相較於 5 分鐘寫入的約 1.25 倍),而無論 TTL 為何,讀取均維持深度折扣——與 Opus 4.6/4.8 完全相同。如果你在 Opus 上針對即時/對話工作負載選擇了 5m、針對有人工介入暫停的代理選擇了 1h,在 Fable 5 上保留這些選擇即可。
成本分析:2 倍價格 × 1.45 倍權杖數
這才是 Fable 5 真正不同之處。兩個因素推高了費用,且會相乘計算。
1. 標價為 Opus 層級的 2 倍。
| 模型 | 輸入($/百萬) | 輸出($/百萬) | 快取讀取($/百萬) |
|---|---|---|---|
claude-opus-4-6 / 4-8 | 5 | 25 | 0.5 |
claude-fable-5 | 10 | 50 | 1 |
2. 相同文字比 4.6 多約 45% 的權杖數(如上述分詞器變更)。
兩者相乘,相同的英文提示費用會大幅增加。針對每個模型使用相同系統提示的實測結果(閘道 usage.cost,相同單次執行):
| 比較 | 權杖數比率 | 價格比率 | 相同提示的成本比率(實測) |
|---|---|---|---|
| Fable 5 vs Opus 4.8 | 1.00x | 2.0x | 2.0x |
| Fable 5 vs Opus 4.6 | 1.45x | 2.0x | 2.9x |
因此,相較於 Opus 4.8(相同分詞器),Fable 5 是純粹的 2 倍——完全是價格溢價。相較於 Opus 4.6,分詞器變更與價格變更疊加,使相同提示的成本達到約 2.9 倍。你的快取折扣維持不變,但其所適用的絕對基數比 4.6 時大了約 2.9 倍。如果你是根據 4.6 來規劃每次呼叫的預算,請重新計算。
一個實際影響:請重新確認 1,024 權杖的快取資格門檻。 Anthropic 只快取達到最小大小的前綴。在 4.6 上(以舊版分詞器計算)剛好低於門檻的提示,在 Fable 5 上(多約 45% 的權杖數)可能會超過門檻——反之亦然,基於舊版計數建立的大小估算也可能失準。請務必從即時回應中讀取 cache_creation_input_tokens / cache_read_input_tokens,而非使用可能與實際不符的本地分詞器進行估算。
遷移檢查清單(Opus → Fable 5)
- ✅ 快取程式碼可直接沿用。
cache_control標記、中斷點數量(最多 4 個)、ttl: "1h"、使用欄位名稱——全部相同。 - ✅ TTL 選擇可直接沿用。 即時/對話工作負載用 5 分鐘,有人工介入暫停的突發/代理工作負載用 1 小時。
- ✅ 折扣經濟效益可直接沿用。 讀取約 90% 以上折扣,5 分鐘寫入約 1.25 倍,1 小時寫入約 2 倍。
- ⚠️ 重新規劃絕對成本預算。 Fable 5 每權杖費用約為 Opus 的 2 倍,相同提示的成本約為 Opus 4.6 的 2.9 倍。折扣百分比不變,但其所適用的基數已不同。
- ⚠️ 重新實測權杖數(若從 4.6 或更早版本遷移,預期相同文字多約 45%)。從 4.7/4.8 遷移則預期相同。
- ⚠️ 將預設思考權杖納入考量。 Fable 5 預設輸出推理權杖——以輸出費率計費($50/百萬)。如不需要,請限制或停用思考功能。
結論
對於已針對 Claude 進行快取的團隊而言,claude-fable-5 在整合上非常容易:整個快取與 TTL 介面保持穩定,無需重新學習,也無需重寫程式碼。但從 Opus 4.6 進行預算替換則並不輕鬆——2 倍的權杖價格加上約 45% 的分詞器膨脹,使相同提示的費用達到約 2.9 倍。請針對即時 usage 物件確認你的數據,決定是否需要預設思考權杖,並根據新的權杖數重新規劃快取中斷點。
完整的快取操作手冊——提示