Synthorai 上的 Claude Opus 4.8：快取與 TTL 對比 4.7/4.6

2026年5月29日 · claude-opus-4-8 · prompt-cache · model-update

可用性
快取行為：與 4.7/4.6 相同
TTL 行為：與 4.7/4.6 相同
首 token 時間：各版本大致持平
唯一的實質變化：tokenization（從 4.7 開始）
遷移檢查清單（4.6/4.7 → 4.8）
結論
常見問題

claude-opus-4-8 現已可透過 Synthorai 閘道使用。如果你已經在 Opus 系列上使用提示詞快取，結論很簡單，也令人安心：快取與 TTL 規格和 4.7、4.6 完全相同。 cache_control 標記不變，TTL 仍是 5 分鐘與 1 小時，讀取折扣和寫入加價也都一樣。現有快取程式碼可以直接沿用。

真正有變動的只有一項，而且變更發生在 4.7，不是 4.8。這項變更會影響 token 預算。本文直接提供實測結果。

TL;DR

Claude Opus 4.8 完整沿用 4.7/4.6 的快取規格：實測讀取折扣為 89%，5 分鐘 TTL 的寫入加價約為 1.25 倍，1 小時 TTL 則約為 2 倍。
同一段 system 文字在 Opus 4.7/4.8 回報的輸入 token，比 4.5/4.6 多約 43%（11,394 對 7,976 tokens）。
整個 Opus 系列的每 token 價格相同：4.8/4.5 的成本比為 1.43，與 1.429 的 token 比一致。
Opus 4.5 至 4.8 的暖快取讀取 TTFT 都落在 2.2–2.8 秒，差異只是抖動。

以下數據皆於 2026-05-29 透過 https://synthorai.io/（Anthropic 原生 /v1/messages）實測。測試使用約 8K 字元的英文 system prompt、較小的 max_tokens，並採單次循序執行。引用前，請先用自己的 prompt 重現測試。

可用性

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-opus-4-8",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

只要將 claude-opus-4-7 → claude-opus-4-8，快取路徑的其他部分都不必調整。cache_control 的運作方式請參考快取教學；快取存在的架構原因則詳見本系列第 1 篇。

快取行為：與 4.7/4.6 相同

我們在近期的 Opus 系列上，依序執行相同的快取寫入、快取讀取與無快取測試。各版本的折扣結構完全一致。

模型	無快取成本	5m 快取寫入	快取讀取	讀取折扣
`claude-opus-4-5`	$0.0364	$0.0452	$0.0041	88.8%
`claude-opus-4-6`	$0.0364	$0.0452	$0.0041	88.7%
`claude-opus-4-7`	$0.0522	$0.0654	$0.0059	88.7%
`claude-opus-4-8`	$0.0520	$0.0654	$0.0059	88.6%

四個版本都維持以下兩項特性：

讀取折扣約為 89%。 暖快取讀取的成本約為無快取輸入價格的 11%。這與 Anthropic 文件中的 10% 快取讀取費率一致，沒有變動。
寫入加價約為 25%。 第一次冷呼叫需要建立快取，成本約為無快取價格的 1.25 倍。命中一次即可回本。

4.7 和 4.8 的絕對成本高於 4.5/4.6，但原因是 token 數量增加，而不是快取計價方式改變。各版本的百分比維持不變。

TTL 行為：與 4.7/4.6 相同

Opus 4.8 支援與系列其他版本相同的兩種 TTL：預設採用可滑動續期的 5 分鐘 TTL，也可明確指定 1 小時 TTL。我們在每次呼叫中使用唯一前綴，避免舊快取項目干擾結果，再分別測量兩種 TTL 的寫入加價：

模型	TTL	快取寫入	相對於無快取的寫入加價
`claude-opus-4-7`	5m	$0.0650	~1.25×
`claude-opus-4-7`	1h	$0.1036	~2×
`claude-opus-4-8`	5m	$0.0650	~1.25×
`claude-opus-4-8`	1h	$0.1036	~2×

# 1-hour TTL — same marker syntax on 4.8 as on 4.7/4.6
"cache_control": {"type": "ephemeral", "ttl": "1h"}

usage 物件回報 TTL bucket 的方式也與先前相同，欄位為 cache_creation.ephemeral_5m_input_tokens 或 ephemeral_1h_input_tokens。1 小時 TTL 的寫入成本約為無快取的 2 倍，5 分鐘 TTL 則約為 1.25 倍；無論 TTL 為何，讀取成本都維持在約 11%。這與 4.7 完全相同。如果你在 4.7 上為即時聊天選擇 5m，並為需要人工介入、可能暫停的 agent 選擇 1h，升級至 4.8 後可以維持原設定。

首 token 時間：各版本大致持平

我們透過串流呼叫測量暖快取讀取的 TTFT。閘道暖機後，每個模型各取 5 個樣本，表中列出中位數。在這組約 8–11K tokens 的 prompt 上，TTFT 落在約 2.2–2.8 秒，各版本沒有明顯趨勢。樣本範圍彼此重疊，因此差異屬於抖動，不是版本效應。

模型	暖快取讀取 TTFT（中位數）	範圍（n=5）
`claude-opus-4-5`	2.72 s	2.58 – 2.78 s
`claude-opus-4-6`	2.76 s	2.65 – 3.01 s
`claude-opus-4-7`	2.21 s	1.98 – 2.97 s
`claude-opus-4-8`	2.47 s	2.23 – 4.38 s

這裡有兩點需要說明：

不要根據這些數據替版本排名。 各版本的範圍高度重疊，4.8 的最高樣本 4.38 秒屬於離群值。對這種 prompt 長度而言，TTFT 主要受網路和排隊抖動影響，而非模型版本。四個版本的暖快取區間都可視為約 2.2–2.8 秒。
快取對 TTFT 的改善幅度會隨 prompt 長度增加。 在約 8–11K tokens 時，快取命中省下的 prefill 不多，因此冷快取和暖快取的 TTFT 很接近。在已暖機的閘道上，兩者都約為 2–3 秒。到了 100K+ tokens，prefill 會成為主要耗時，差距也會明顯拉大。此時暖快取可以將數秒的等待縮短為快速產生第一個 token。運作原理請參考第 1 篇：KV Cache 與 TTL 的運作方式。

唯一的實質變化：tokenization（從 4.7 開始）

遷移前需要重新確認的是：同一段 system 文字在 4.7/4.8 回報的輸入 token，比 4.5/4.6 多約 43%。

模型	輸入 token（相同文字）	無快取成本
`claude-opus-4-5`	~7,976	$0.0364
`claude-opus-4-6`	~7,977	$0.0364
`claude-opus-4-7`	~11,393	$0.0522
`claude-opus-4-8`	~11,394	$0.0520

token 數量從 4.7 世代開始增加，4.8 也延續相同結果。成本幾乎完全隨 token 數量變動：成本比（4.8 / 4.5）為 1.43，token 比則為 1.429。整個系列的每 token 價格相同。4.7/4.8 帳單較高，完全是因為相同文字被計算為更多 token。

這會帶來兩項實務影響：

請依絕對成本重新編列預算，不要只看折扣。 快取折扣仍約為 89%，但同一段英文 prompt 在 4.7/4.8 上的絕對成本，比 4.6 高約 43%。如果每次呼叫的預算是根據 4.6 的 token 數量估算，結果會有落差。
重新確認 1,024 token 的快取資格下限。 Anthropic 只會快取達到最低大小的前綴。在 4.6 上略低於門檻的 prompt，到了 4.7/4.8 可能因 token 增加而超過門檻。若 prompt 是根據舊 tokenizer 的 token 數量設計，也需要重新測量。請一律讀取實際回應中的 cache_creation_input_tokens / cache_read_input_tokens，不要用可能與線上環境不一致的本機 tokenizer 估算。

這裡描述的是實測現象：相同文字在 4.7/4.8 回報的輸入 token 增加約 43%。最合理的解釋是 4.7 世代更新了 tokenizer 或詞彙表。不論根本原因為何，結論都相同：遷移時必須重新測量 token 數量，因為快取計價以 token 為基礎。

遷移檢查清單（4.6/4.7 → 4.8）

✅ 快取程式碼可以原封不動沿用。 cache_control 標記、斷點數量上限（最多 4 個）、ttl: "1h"、usage 欄位名稱全都相同。
✅ TTL 選擇可以沿用。 即時或 session 型工作負載使用 5m；突發型或會暫停的 agent 工作負載使用 1h。
✅ 折扣與加價規則不變。 讀取約 89% 折扣、5m 寫入約 1.25 倍、1h 寫入約 2 倍。
⚠️ 重新測量 token 數量。 如果從 4.5/4.6 遷移，相同文字的輸入 token 預期會增加 40% 以上，這項變更從 4.7 開始。從 4.7 遷移則預期相同。
⚠️ 重新驗證成本儀表板。 請以實際回應中的 usage.cost 和 *_input_tokens 欄位為準，不要使用舊世代留下的快取估算值。

結論

對已經在 Opus 上使用快取的工程團隊來說，claude-opus-4-8 很容易升級。整套快取與 TTL 介面都維持穩定，不需要重新學習，也不必改寫程式碼。如果你從 4.6 或更舊版本升級，請將 tokenizer 變化納入預算，並用線上 usage 物件確認實際數據，之後即可部署。

完整的快取實作指南，包括 prompt 結構、命中率除錯和考量 TTL 的設計模式，請從KV Cache 與 TTL 的運作方式開始閱讀提示詞快取系列，並參考可直接執行的 Python 教學。

常見問題

使用 Opus 4.8 時，需要修改 cache_control 程式碼嗎？ 不需要。標記語法、斷點上限和 TTL 選項都與 4.7/4.6 相同。只需變更 model 欄位。

4.8 的快取讀取折扣有變嗎？ 沒有。從 4.5 到 4.8，暖快取讀取成本都約為無快取輸入價格的 11%，相當於約 89% 折扣，與 Anthropic 文件中的費率一致。

1 小時 TTL 的加價有變嗎？ 沒有。1 小時 TTL 的寫入成本約為無快取輸入價格的 2 倍；5 分鐘 TTL 則約為 1.25 倍。無論 TTL 為何，讀取成本都約為 11%。這與 4.7 相同。

為什麼同一個 prompt 在 4.8 上比 4.6 貴？ 每 token 價格相同，只是 prompt 被計算為更多 token。實測中，相同文字在 4.5/4.6 上回報約 8.0K tokens，在 4.7/4.8 上則約為 11.4K，增加約 43%。最合理的解釋是 4.7 世代變更了 tokenizer。快取折扣本身沒有變動。

4.8 可以直接取代 4.7 嗎？ 就快取與 TTL 介面而言，可以。token 數量和計價方式在 4.7 時就已經是目前的水準，因此從 4.7 遷移至 4.8 不會有差異。我們不會發布未實際執行的能力 benchmark；品質與推理能力相關資訊請參考 Anthropic 的 model card。

驗證資訊：所有快取、TTL、token 數量、成本和 TTFT 數據，皆於 2026-05-29 使用官方 anthropic SDK，透過 https://synthorai.io/ 在單一租戶環境中測得。成本與 token 數據來自單次循序執行；TTFT 則是在閘道暖機後，每個模型取 5 個樣本的中位數。折扣與加價比率已對照 Anthropic Prompt Caching 文件交叉確認。實際數據會因 prompt、區域和負載而異。

← 返回部落格