Claude Fable 5:快取、分詞器與 Opus 4.6 的成本比較

目錄
  1. 可用性
  2. 重點:Fable 5 採用新版分詞器
  3. 快取行為:合約維持不變
  4. TTL 行為:兩個時間視窗均受支援
  5. 成本分析:2 倍價格 × 1.45 倍權杖數
  6. 遷移檢查清單(Opus → Fable 5)
  7. 結論

claude-fable-5 現已可在 Synthorai 閘道上使用。如果你已針對 Claude 系列進行快取,好消息是快取與 TTL 合約完全延續:相同的 cache_control 標記、相同的 5 分鐘與 1 小時 TTL、相同的寫入溢價、相同的深度讀取折扣。只需更改一個字串,你的快取程式碼即可直接沿用。

需要納入預算考量的不是快取機制,而是費用。Fable 5 的標價為 Opus 權杖價格的 2 倍,且相同的英文文字會產生比 Opus 4.6 多約 45% 的權杖數(它採用 4.6 之後的分詞器,與 Opus 4.8 完全相同)。這兩個乘數會疊加計算。本文將逐一實測,省去你自行驗證的功夫。

以下所有數據均於 2026-06-10 針對 https://synthorai.io/(Anthropic 原生 /v1/messages)進行實測,使用穩定的約 6,600–9,600 權杖英文系統提示,max_tokens 設定較小,單次循序執行。成本數據讀取自閘道的 usage.cost 欄位;比率(權杖數、寫入溢價、讀取折扣、跨模型成本)為可移植的部分——絕對金額會隨你的提示而變動。在引用這些數據前,請先針對你自己的提示重新實測。


可用性

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-fable-5",             # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost

claude-opus-4-6 替換為 claude-fable-5,快取路徑中的任何內容都無需更動。Fable 5 是一個具備 100 萬權杖上下文視窗的 Anthropic 原生模型。有一點行為需要注意:它是一個推理模型,預設會輸出思考權杖——即使是簡單的「回覆 OK」,在我們的測試中也回傳了 output_tokens_details.thinking_tokens > 0,而 Opus 4.6/4.8 則回傳零。請據此規劃輸出權杖的預算。cache_control 背後的機制詳見快取教學;快取存在的架構原因則在系列文章第一篇中說明。


重點:Fable 5 採用新版分詞器

Opus 系列的權杖數在 4.7 世代出現了跳升:相同的英文文字在 4.6 上計為約 6,600 個權杖,在 4.8 上則計為約 9,600 個。Fable 5 落在新版這一側——相同文字回報的權杖數與 Opus 4.8 完全一致。

模型輸入權杖數(相同文字)分詞器世代
claude-opus-4-66,6144.7 之前
claude-opus-4-89,6194.7 之後
claude-fable-59,6194.7 之後(與 4.8 完全相同)

相同的系統提示在 Fable 5 上的權杖數比 Opus 4.6 多約 45%(9,619 / 6,614 = 1.45)。這是遷移前最重要的一個數字,因為所有下游數據——成本、1,024 權杖的快取資格門檻、每次呼叫的預算——都以權杖為單位計算。

我們描述的是一個實測觀察——相同文字在 Fable 5 和 Opus 4.8 上的權杖數完全相同,比 Opus 4.6 高約 45%——這與 4.7 世代推出的分詞器/詞彙表更新最為吻合。如果你是從 4.6 或更早版本遷移,請重新實測;如果是從 4.7/4.8 遷移,預期結果將相同。


快取行為:合約維持不變

我們對每個模型執行了相同的無快取 / 冷寫入 / 暖讀取序列。折扣結構從頭到尾完全一致——Fable 5 支援 cache_control 並回報相同的使用欄位(cache_creation_input_tokenscache_read_input_tokens,以及 ephemeral_5m / ephemeral_1h 分類)。

模型5 分鐘快取寫入1 小時快取寫入暖讀取
claude-opus-4-61.25x2.00x約無快取的 9%
claude-opus-4-81.25x2.00x約無快取的 6%
claude-fable-51.24x1.99x約無快取的 6%

三個模型均遵循兩個不變量:

  • 寫入溢價 ≈ 1.25x(5 分鐘),≈ 2x(1 小時)。 第一次(冷)呼叫的費用約為無快取價格的 1.25 倍(建立 5 分鐘快取項目),或 2 倍(建立 1 小時快取項目)。命中一次即可回本。
  • 讀取折扣 ≈ 90% 以上。 Fable 5 的暖快取讀取費用約為無快取呼叫的 6%——折扣約 94%,與 Anthropic 文件記載的約 90% 快取讀取經濟效益相符(甚至略優)。無論 TTL 為何,讀取均維持深度折扣。

各百分比在整個系列中持平。與 Opus 4.7 → 4.8 的升級步驟相同,Fable 5 較高的絕對費用是價格與權杖數的問題,而非快取經濟效益的問題——詳見下一節。


TTL 行為:兩個時間視窗均受支援

Fable 5 支援與其他系列相同的兩種 TTL:預設的 5 分鐘滑動視窗,以及可選的 1 小時視窗。我們為每次呼叫使用唯一前綴(避免舊快取項目污染結果)來隔離各 TTL,並確認使用物件回報了正確的分類——cache_creation.ephemeral_5m_input_tokensephemeral_1h_input_tokens

# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}

1 小時寫入的費用約為無快取的 2 倍(相較於 5 分鐘寫入的約 1.25 倍),而無論 TTL 為何,讀取均維持深度折扣——與 Opus 4.6/4.8 完全相同。如果你在 Opus 上針對即時/對話工作負載選擇了 5m、針對有人工介入暫停的代理選擇了 1h,在 Fable 5 上保留這些選擇即可。


成本分析:2 倍價格 × 1.45 倍權杖數

這才是 Fable 5 真正不同之處。兩個因素推高了費用,且會相乘計算。

1. 標價為 Opus 層級的 2 倍。

模型輸入($/百萬)輸出($/百萬)快取讀取($/百萬)
claude-opus-4-6 / 4-85250.5
claude-fable-510501

2. 相同文字比 4.6 多約 45% 的權杖數(如上述分詞器變更)。

兩者相乘,相同的英文提示費用會大幅增加。針對每個模型使用相同系統提示的實測結果(閘道 usage.cost,相同單次執行):

比較權杖數比率價格比率相同提示的成本比率(實測)
Fable 5 vs Opus 4.81.00x2.0x2.0x
Fable 5 vs Opus 4.61.45x2.0x2.9x

因此,相較於 Opus 4.8(相同分詞器),Fable 5 是純粹的 2 倍——完全是價格溢價。相較於 Opus 4.6,分詞器變更與價格變更疊加,使相同提示的成本達到約 2.9 倍。你的快取折扣維持不變,但其所適用的絕對基數比 4.6 時大了約 2.9 倍。如果你是根據 4.6 來規劃每次呼叫的預算,請重新計算。

一個實際影響:請重新確認 1,024 權杖的快取資格門檻。 Anthropic 只快取達到最小大小的前綴。在 4.6 上(以舊版分詞器計算)剛好低於門檻的提示,在 Fable 5 上(多約 45% 的權杖數)可能會超過門檻——反之亦然,基於舊版計數建立的大小估算也可能失準。請務必從即時回應中讀取 cache_creation_input_tokens / cache_read_input_tokens,而非使用可能與實際不符的本地分詞器進行估算。


遷移檢查清單(Opus → Fable 5)

  • 快取程式碼可直接沿用。 cache_control 標記、中斷點數量(最多 4 個)、ttl: "1h"、使用欄位名稱——全部相同。
  • TTL 選擇可直接沿用。 即時/對話工作負載用 5 分鐘,有人工介入暫停的突發/代理工作負載用 1 小時。
  • 折扣經濟效益可直接沿用。 讀取約 90% 以上折扣,5 分鐘寫入約 1.25 倍,1 小時寫入約 2 倍。
  • ⚠️ 重新規劃絕對成本預算。 Fable 5 每權杖費用約為 Opus 的 2 倍,相同提示的成本約為 Opus 4.6 的 2.9 倍。折扣百分比不變,但其所適用的基數已不同。
  • ⚠️ 重新實測權杖數(若從 4.6 或更早版本遷移,預期相同文字多約 45%)。從 4.7/4.8 遷移則預期相同。
  • ⚠️ 將預設思考權杖納入考量。 Fable 5 預設輸出推理權杖——以輸出費率計費($50/百萬)。如不需要,請限制或停用思考功能。

結論

對於已針對 Claude 進行快取的團隊而言,claude-fable-5整合上非常容易:整個快取與 TTL 介面保持穩定,無需重新學習,也無需重寫程式碼。但從 Opus 4.6 進行預算替換則並不輕鬆——2 倍的權杖價格加上約 45% 的分詞器膨脹,使相同提示的費用達到約 2.9 倍。請針對即時 usage 物件確認你的數據,決定是否需要預設思考權杖,並根據新的權杖數重新規劃快取中斷點。

完整的快取操作手冊——提示

← 返回部落格