Synthorai 上的 Claude Opus 4.8:快取與 TTL 對比 4.7/4.6
claude-opus-4-8 現已在 Synthorai 閘道上可用。如果你已經在 Opus 系列上執行提示快取,那麼頭條消息既令人安心又略顯平淡:快取和 TTL 的合約相比 4.7 或 4.6 沒有任何變化。 相同的 cache_control 標記,相同的 5 分鐘和 1 小時 TTL,相同的讀取折扣,相同的寫入溢價。你的快取程式碼可以直接沿用,無需改動。
確實有一件事發生了變化——而且是在 4.7 時就變了,不是 4.8——它會影響你的權杖預算。本文已經替你把它測量出來了。
下面所有數字均於 2026-05-29 針對
https://synthorai.io/(Anthropic 原生/v1/messages)測得,使用約 8K 字元的英文系統提示,max_tokens設得較小,單次循序執行。引用前請針對你自己的提示重新重現。
可用性
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-opus-4-8", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # cache_creation_input_tokens, cache_read_input_tokens, cost
把 claude-opus-4-7 → claude-opus-4-8 一換,快取路徑裡其他任何東西都不需要動。cache_control 背後的機制詳見快取教學;至於快取為何存在的架構原理,請看系列文章第 1 部分。
快取行為:與 4.7/4.6 相同
我們在近期的 Opus 系列上執行了相同的快取寫入 / 快取讀取 / 無快取序列。折扣結構從頭到尾完全一致。
| 模型 | 無快取成本 | 5m 快取寫入 | 快取讀取 | 讀取折扣 |
|---|---|---|---|---|
claude-opus-4-5 | $0.0364 | $0.0452 | $0.0041 | 88.8% |
claude-opus-4-6 | $0.0364 | $0.0452 | $0.0041 | 88.7% |
claude-opus-4-7 | $0.0522 | $0.0654 | $0.0059 | 88.7% |
claude-opus-4-8 | $0.0520 | $0.0654 | $0.0059 | 88.6% |
四個版本上有兩條不變量成立:
- 讀取折扣 ≈ 89%。 一次命中快取的讀取成本約為無快取輸入價格的 11%。這就是 Anthropic 文件中記錄的 10% 快取讀取費率,維持不變。
- 寫入溢價 ≈ 25%。 第一次(冷)呼叫為了填充快取,成本約為無快取價格的 1.25 倍。命中一次即可回本。
4.7 和 4.8 的絕對美元數字高於 4.5/4.6,但稍後我們會看到,這是一個權杖數量的問題,而非快取經濟性的問題——百分比是平的。
TTL 行為:與 4.7/4.6 相同
Opus 4.8 遵循與系列其餘成員相同的兩個 TTL:一個 5 分鐘的滑動預設值,以及一個可選的 1 小時視窗。我們用每次呼叫唯一的前綴隔離 TTL 路徑(這樣就不會有過期快取項污染結果),並測量了每個 TTL 的寫入溢價:
| 模型 | TTL | 快取寫入 | 寫入溢價(相對無快取) |
|---|---|---|---|
claude-opus-4-7 | 5m | $0.0650 | ~1.25× |
claude-opus-4-7 | 1h | $0.1036 | ~2× |
claude-opus-4-8 | 5m | $0.0650 | ~1.25× |
claude-opus-4-8 | 1h | $0.1036 | ~2× |
# 1-hour TTL — same marker syntax on 4.8 as on 4.7/4.6
"cache_control": {"type": "ephemeral", "ttl": "1h"}
usage 物件報告 TTL 桶的方式與以前完全一樣——cache_creation.ephemeral_5m_input_tokens 或 ephemeral_1h_input_tokens。1 小時寫入成本約為無快取的 2 倍(相比 5 分鐘寫入的約 1.25 倍),而讀取無論 TTL 如何都維持在約 11%。與 4.7 完全相同。如果你在 4.7 上為即時聊天選了 5m、為有人工介入暫停的代理選了 1h,那麼在 4.8 上保持這些選擇即可。
首個權杖時間:整個系列持平
我們用串流呼叫測量了熱讀取的 TTFT(每個模型在閘道預熱後取樣 5 次,報告中位數)。在這個約 8–11K 權杖的提示上,TTFT 落在約 2.2–2.8 秒的區間內,沒有實質性的逐版本趨勢——樣本區間相互重疊,所以差異是抖動,而非版本效應。
| 模型 | 熱讀取 TTFT(中位數) | 區間(n=5) |
|---|---|---|
claude-opus-4-5 | 2.72 s | 2.58 – 2.78 s |
claude-opus-4-6 | 2.76 s | 2.65 – 3.01 s |
claude-opus-4-7 | 2.21 s | 1.98 – 2.97 s |
claude-opus-4-8 | 2.47 s | 2.23 – 4.38 s |
有兩點需要明確說清:
- 不要從中讀出排名。 區間大幅重疊(4.8 的高值樣本是個 4.38 秒的離群點);在這個提示規模下,TTFT 由網路和排隊抖動主導,而非模型版本。把約 2.2–2.8 秒視為四者共同的熱區間即可。
- 快取帶來的 TTFT 收益隨提示長度而擴大。 在約 8–11K 權杖時,快取命中所節省的預填充很小,所以冷啟動和熱啟動的 TTFT 很接近(在預熱過的閘道上都約 2–3 秒)。當達到 100K+ 權杖、預填充佔主導時,差距會顯著拉大——這時一次熱快取能把數秒的等待變成快速的首個權杖。機制詳見第 1 部分:KV 快取與 TTL 如何運作。
唯一真正的變化:權杖化(自 4.7 起)
這才是你遷移前要重新核對的事情。相同的系統文字在 4.7/4.8 上報告的輸入權杖比 4.5/4.6 多約 43%。
| 模型 | 輸入權杖(相同文字) | 無快取成本 |
|---|---|---|
claude-opus-4-5 | ~7,976 | $0.0364 |
claude-opus-4-6 | ~7,977 | $0.0364 |
claude-opus-4-7 | ~11,393 | $0.0522 |
claude-opus-4-8 | ~11,394 | $0.0520 |
權杖數量在 4.7 這一代躍升,並延續到 4.8。成本幾乎精確地跟隨權杖數量:成本比(4.8 / 4.5)是 1.43,權杖比是 1.429。換句話說,整個系列的每權杖價格是相同的——4.7/4.8 上更高的帳單完全來自同樣的文字被計為更多的權杖。
兩個實際後果:
- 按絕對成本重新做預算,而不是按折扣。 你的快取折扣沒變(約 89% 讀取),但同樣一段英文提示在 4.7/4.8 上的絕對成本比在 4.6 上貴約 43%。如果你曾按 4.6 的權杖數為單次呼叫設定預算,那它會算偏。
- 重新核對 1,024 權杖的快取資格下限。 Anthropic 只快取達到或超過某個最小尺寸的前綴。一個在 4.6 上剛好低於下限的提示,可能在 4.7/4.8 上越過了它(權杖更多),而一個按舊權杖化器以權杖計量的提示需要重新測量。請始終從即時回應中讀取
cache_creation_input_tokens/cache_read_input_tokens,而不要依賴一個可能不匹配的本機權杖化器去估算。
我們描述的是一個實測觀察——相同文字在 4.7/4.8 上報告的輸入權杖多約 43%——這與 4.7 這一代發生的權杖化器/詞表更新最為吻合。但結論不依賴於根本原因:遷移時請重新測量權杖數,因為快取的計算是基於權杖的。
遷移清單(4.6/4.7 → 4.8)
- ✅ 快取程式碼原樣沿用。
cache_control標記、中斷點數量(最多 4 個)、ttl: "1h"、usage 欄位名——全部相同。 - ✅ TTL 選擇沿用。 即時/工作階段型負載用 5m,突發型/帶暫停的代理用 1h。
- ✅ 折扣經濟性沿用。 約 89% 讀取,約 1.25× 寫入(5m),約 2× 寫入(1h)。
- ⚠️ 重新測量權杖數。 如果你從 4.5/4.6 過來,對相同文字預期會多出約 40%+ 的輸入權杖(這發生在 4.7)。從 4.7 過來則預期持平。
- ⚠️ 重新驗證成本儀表板。 信任即時回應中的
usage.cost和*_input_tokens欄位,而不是來自舊版本的快取估算。
結論
對於一個已經在 Opus 上做快取的工程團隊來說,claude-opus-4-8 是那種輕鬆的升級:整個快取和 TTL 面都很穩定,所以沒什麼要重新學,也沒有程式碼要重寫。如果你是從 4.6 或更早跳過來,為權杖化器的變化做好預算,對照即時 usage 物件確認你的數字,然後發布。
要看完整的快取攻略——提示結構、命中率除錯、TTL 感知模式——請看從KV 快取與 TTL 如何運作開始的四部分系列,以及可執行的 Python 教學。
常見問題
使用 Opus 4.8 需要改我的 cache_control 程式碼嗎?
不需要。標記語法、中斷點上限和 TTL 選項與 4.7/4.6 完全相同。改一下 model 欄位,其他都不用動。
快取讀取折扣在 4.8 上變了嗎? 沒有。一次熱讀取約為無快取輸入價格的 11%(約打一折優惠),4.5 到 4.8 都是如此,與 Anthropic 文件記錄的費率一致。
1 小時 TTL 的溢價變了嗎? 沒有。1 小時寫入成本約為無快取輸入價格的 2 倍;5 分鐘寫入約為 1.25 倍。無論 TTL 如何,讀取約為 11%。與 4.7 相同。
為什麼同樣的提示在 4.8 上比 4.6 上貴? 每權杖的價格是一樣的——只是提示被計為更多的權杖。在我們的測量中,相同文字在 4.5/4.6 上報告約 8.0K 權杖,在 4.7/4.8 上約 11.4K 權杖(增加約 43%),這與 4.7 這一代的權杖化器變化最為吻合。快取折扣未變。
4.8 是 4.7 的直接替代品嗎? 在快取/TTL 這一面,是的——權杖數和經濟性早在 4.7 時就已是該水準,所以從 4.7 遷移是持平的。我們不發布自己沒跑過的能力基準測試;關於品質和推理方面的論斷,請參閱 Anthropic 的模型卡。
驗證說明:所有快取、TTL、權杖數、成本和 TTFT 數字均於 2026-05-29 針對 https://synthorai.io/、使用官方 anthropic SDK、單租戶測得。成本/權杖數字為單次循序執行;TTFT 為每個模型在閘道預熱後的 5 次取樣中位數。折扣/溢價比率已與 Anthropic 提示快取文件交叉核對。你的數字會隨提示、區域和負載而變化。