Claude Sonnet 5 的新 Tokenizer:同樣的 Prompt 多出 41% 的 Token
claude-sonnet-5 已經在 Synthorai 閘道上線,現在的價格很便宜:每百萬 input / output token 為 $2 / $10,比 Opus 4.8 便宜 2.5 倍,也低於 Sonnet 4.6。趁還便宜的時候多用一點。這是到 2026 年 8 月 31 日為止的推廣價;9 月 1 日起會回到 $3 / $15,跟 Sonnet 4.6 標價一樣。
如果你對 Claude 系列做了快取,快取與 TTL 的規則可以直接沿用,不用改。真正要看第二眼的是成本,原因在於 Sonnet 5 怎麼計算 token。它換上了新的 tokenizer,同一段英文文字算下來會比 Sonnet 4.6 多出約 41% 的 input token,而 token 數量正是你付費和受限的依據。標價只是帳單的一半。
在還沒動到任何程式碼、也還沒討論品質之前,先看這個 token 變化會影響到哪些地方:
- 每個 prompt 的成本。 在標準價下,同一段英文 prompt 會比 Sonnet 4.6 貴約 41%,因為相同文字在相同的單價下被算成更多 token。
- 所有以 token 為基礎的估算。 依照 4.6 抓的每次呼叫預算,或本地 tokenizer 的計數,在 Sonnet 5 上會低估約 40%。要看即時回報的
usage,別靠本地猜。 - context window 的餘裕。 同一份文件會多吃掉約 41% 的視窗空間,所以長 context 和 RAG 呼叫每次能塞進的實際文字變少。
- 速率限制。 相同工作量下,每分鐘 token 上限會快約 41% 用完,吞吐量因此下降。
- 快取門檻(一點小好處)。 1,024 token 的下限更容易達到,所以在 4.6 上剛好差一點沒過門檻的前綴,在 Sonnet 5 上可能就能快取了。
後面會針對每一點給出實測數字:價格、快取的成本帳,以及 token 計數的變化。
價格、快取、TTL 與 token 計數皆於 2026-07-01 針對
https://synthorai.io/(Anthropic 原生/v1/messages)實測。每個 token 的單價由實際呼叫回報的usage成本推算;推廣價 / 標準價與 8 月 31 日到期日出自 Anthropic 的公告。引用前請先用你自己的 prompt 重跑驗證。
可用性
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-sonnet-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # cache_creation_input_tokens, cache_read_input_tokens, cost
只要換掉 model 欄位,快取路徑上其他東西都不用動。cache_control 背後的運作機制在快取教學裡;快取為什麼存在的架構說明則在系列文的第 1 篇。
價格:現在便宜,九月起回到 Sonnet 4.6 的水準
閘道上的每權杖價格,是從一般(未快取)呼叫的 usage 成本推算出來的:
| 模型 | 輸入($/M) | 輸出($/M) |
|---|---|---|
claude-sonnet-5(優惠價,8 月 31 日前) | $2.00 | $10.00 |
claude-sonnet-5(標準價,9 月 1 日起) | $3.00 | $15.00 |
claude-sonnet-4-6 | $3.00 | $15.00 |
claude-opus-4-8 | $5.00 | $25.00 |
優惠價是實實在在的折扣,而跟 Opus 4.8 相比,這個優勢會長期存在:即使回到 $3 / $15 的標準價,Sonnet 5 還是比 Opus 便宜,而且兩者共用同一套 tokenizer(下面會細講),所以兩種價格下的比較都很乾淨。
但跟 Sonnet 4.6 相比,這個折扣只是暫時的。9 月 1 日起牌價完全相同,任何用今天數字算出來的「Sonnet 5 比 4.6 便宜」的規劃,都會隨優惠一起失效。而且下一節會看到,在相同牌價下,處理同一段文字時 Sonnet 5 其實是比較貴的那一個。
我們不會公布沒跑過的能力測試;Sonnet 5 的品質值不值得比 4.6 多付的成本,這要靠你自己的評測,不是我們說了算。
快取與 TTL:直接沿用
快取的契約跟 Claude 系列其他模型完全一樣。我們跑了一組冷寫入/熱讀取的流程,用固定的 2.2K token 前綴,每次呼叫都改變 user message,這樣就不會有回應層級的快取汙染結果。每次熱輪的成本(以目前的優惠價計算):
| 模型 | 冷輪(快取寫入) | 熱輪(快取讀取) | 冷 → 熱 |
|---|---|---|---|
claude-sonnet-5(優惠價) | $0.0069 | $0.0017 | 4.0× |
claude-sonnet-4-6 | $0.0079 | $0.0024 | 3.3× |
claude-opus-4-8 | $0.0172 | $0.0043 | 4.0× |
這些不變量跟整個 Opus 系列一樣成立:
- 讀取折扣約 90%。 一次熱快取讀取的成本約為輸入價的 10%,符合 Anthropic 文件所寫的「最高 90%」快取讀取節省。命中一次就回本。
- 1 小時 TTL 行為一致。 Sonnet 5 接受
cache_control: {"type": "ephemeral", "ttl": "1h"},usage物件也照舊拆分兩個桶:cache_creation.ephemeral_5m_input_tokens對ephemeral_1h_input_tokens。1 小時寫入的加價約為無快取的 2 倍(5 分鐘寫入約為 1.25 倍);不論 TTL 為何,讀取都維持約 10%。
表格有一點要留意:那些熱輪的金額是以優惠價計算的。9 月 1 日起,把 Sonnet 5 的數字乘以 1.5 倍(輸入 $2 → $3、輸出 $10 → $15)。今天一次熱 Sonnet 5 輪要 $0.0017,到九月大約是 $0.0026,仍低於 Opus 4.8 的 $0.0043,但已經不再低於 Sonnet 4.6。
token 計數的陷阱
九月調價之所以會咬你兩次,關鍵在這裡:同一份 system 文字,在 Sonnet 5 上算出來的 input token 比 Sonnet 4.6 多了約 41%。
| 模型 | Input token(相同文字) | 標準價下的 input 成本 |
|---|---|---|
claude-sonnet-4-6 | 1,594 | $0.0048 |
claude-sonnet-5 | 2,245 | $0.0067 |
claude-opus-4-8 | 2,245 | $0.0112 |
同一份英文 prompt,Sonnet 5 斷成 2,245 個 token,跟 Opus 4.8 的數字完全一樣,遠高於 Sonnet 4.6 的 1,594。Sonnet 5 用的是 Opus 系列從 4.7 開始採用的較新 tokenizer。
把價格和 token 數放在一起看,狀況就很清楚了:
- 在優惠期內,token 多出的 41% 被降低 33% 的費率抵銷($2 對 $3),所以同一個未快取的 prompt 花費跟在 4.6 上差不多,而 warm turn 因為 output 有折扣還更便宜。
- 從 9 月 1 日起,費率跟 4.6 一樣,但 token 數不一樣。同一份英文 prompt 在 Sonnet 5 上比 Sonnet 4.6 貴約 41%(這個 prefix 是 $0.0067 對 $0.0048),因為相同文字在同樣的每 token 單價下就是被算成更多 token。
對上 Opus 4.8 就沒有這個陷阱:tokenizer 相同(2,245 = 2,245),所以不管是優惠價(2.5 倍)還是標準價(1.67 倍),Sonnet 5 都乾淨俐落地更便宜。
所以編列預算要看九月的帳單,不是七月的:每 token 費率在 9 月 1 日漲 1.5 倍,而較高的 token 數今天就已經算進去了。另外,請從即時回應讀取 cache_creation_input_tokens / cache_read_input_tokens,不要用可能還停留在舊詞彙表的本地 tokenizer。
Sonnet 5 對 Opus 4.8:長期不變的贏面
這是這次發表會永久改變的一組比較。Sonnet 5 和 Opus 4.8 共用同一個 tokenizer,所以任何 prompt 的 token 數都完全相同,成本差異純粹來自費率:優惠價便宜 2.5 倍,標準價便宜 1.67 倍,cold turn、warm turn、input、output 一律如此。今天一個 warm 的快取回合是 $0.0017 對 $0.0043;就算到了九月,也大約是 $0.0026 對 $0.0043。
對於一個大量使用快取、每回合都重複同一段 prefix 的 agent loop 來說,這個差距會不斷累積。決策方式還是老樣子:跑你自己的 eval,如果 Sonnet 5 過得了你的品質門檻,閘道這邊的帳算下來長期都偏向它,不只是撐到八月。如果過不了,只要改一個 model 欄位就能換回 Opus 4.8,快取程式碼完全不用動。
遷移檢查清單
- ✅ 快取程式碼原封不動照搬。
cache_control標記、breakpoint 數量、ttl: "1h"、usage欄位名稱,全都跟 Opus 系列一模一樣。 - ✅ TTL 選擇照搬。 即時/session 類工作用 5m,突發型或會有停頓的 agent 工作用 1h。
- ✅ 折扣經濟照搬。 read 約 90%,write 約 1.25 倍(5m),write 約 2 倍(1h)。
- ⚠️ 在預算上標記 9 月 1 日。 優惠價在 8 月 31 日結束,Sonnet 5 漲到 $3 / $15。在漲價前先把這 1.5 倍的跳升算進去。
- ⚠️ 重新測 token 數(如果你是從 4.6 或更早的版本過來)。 同樣的文字,Sonnet 5 上的 token 多了約 41%。在標準價下,這會讓同一個 prompt 比 4.6 更貴,而不是更便宜。
- ⚠️ 相信即時的
usage物件。 從回應讀取*_input_tokens和cost,不要用舊世代快取下來的估算值。
結論
Sonnet 5 在有限時間內是划算的選擇。跟 Opus 4.8 相比,它長期便宜 1.67 到 2.5 倍,而且快取機制可以直接沿用,所以任何不吃品質的 Opus 工作負載,第一個該拿來評估的就是它。跟 Sonnet 4.6 相比,優勢只有那筆導入折扣:9 月 1 日之後價格就跟 4.6 一樣,而且新的 tokenizer 讓同一段 prompt 實際上花更多錢。折扣可以拿,但預算要用 9 月的數字來抓,答應財務任何數字之前,先拿即時的 usage 物件確認你的 token 數。
完整的快取操作手冊,可以從四篇系列的第一篇 KV Cache 與 TTL 的運作原理 開始看,再搭配可實作的 Python 教學。
常見問題
Sonnet 5 比 Sonnet 4.6 便宜嗎? 只有導入期便宜。到 2026 年 8 月 31 日為止是 $2 / $10,4.6 則是 $3 / $15。9 月 1 日起變成 $3 / $15,兩者相同。而且同一段文字在 Sonnet 5 上大約多算 41% 的 token,所以在標準價格下,同一段 prompt 反而比在 4.6 上更貴。
導入價什麼時候結束? 根據 Anthropic 的公告,是 2026 年 8 月 31 日。9 月 1 日起,價格變成每百萬 input token $3、每百萬 output token $15。
Sonnet 5 比 Opus 4.8 便宜多少? 導入價下便宜 2.5 倍,標準價下便宜 1.67 倍,input 和 output 都一樣。兩者共用 tokenizer,所以 token 數一致,差別純粹在費率,兩種價格下都是如此。
我需要改 cache_control 的程式碼嗎?
不用。標記語法、breakpoint 上限、TTL 選項都跟 Opus 系列一模一樣。只改 model 欄位,其他都不動。快取命中的讀取約為 input 價格的 10%;1 小時寫入約為無快取的 2 倍,5 分鐘寫入約為 1.25 倍。
Sonnet 5 可以直接替換 Opus 4.8 嗎? 在快取、TTL 和成本這幾個面向上,遷移非常簡單,而且兩種價格下都更便宜。品質方面請自己跑 eval;我們不會發布自己沒跑過的能力 benchmark。模型品質的說法請參考 Anthropic 的 model card。
驗證說明:價格、快取、TTL 和 token 數的數字,是在 2026-07-01 對 https://synthorai.io/ 量測,走 Anthropic 原生的 /v1/messages 路徑,單租戶。每 token 價格取自一般呼叫的 usage 成本;每輪成本是小樣本中位數,使用 2.2K token 的快取前綴,反映目前的導入價。導入價格與 2026 年 8 月 31 日到期時間來自 Anthropic 的 Sonnet 5 公告;折扣/溢價比例則對照 Anthropic Prompt Caching 文件 交叉驗證。你的數字會隨 prompt、區域和負載而變。