Claude Sonnet 5 的新 Tokenizer：同樣的 Prompt 多出 41% 的 Token

2026年7月1日 · claude-sonnet-5 · prompt-cache · cost · model-update

可用性
價格：現在便宜，九月起回到 Sonnet 4.6 的水準
快取與 TTL：直接沿用
token 計數的陷阱
Sonnet 5 對 Opus 4.8：長期不變的贏面
遷移檢查清單
結論
常見問題

claude-sonnet-5 已經在 Synthorai 閘道上線，現在的價格很便宜：每百萬 input / output token 為 $2 / $10，比 Opus 4.8 便宜 2.5 倍，也低於 Sonnet 4.6。趁還便宜的時候多用一點。這是到 2026 年 8 月 31 日為止的推廣價；9 月 1 日起會回到 $3 / $15，跟 Sonnet 4.6 標價一樣。

如果你對 Claude 系列做了快取，快取與 TTL 的規則可以直接沿用，不用改。真正要看第二眼的是成本，原因在於 Sonnet 5 怎麼計算 token。它換上了新的 tokenizer，同一段英文文字算下來會比 Sonnet 4.6 多出約 41% 的 input token，而 token 數量正是你付費和受限的依據。標價只是帳單的一半。

在還沒動到任何程式碼、也還沒討論品質之前，先看這個 token 變化會影響到哪些地方：

每個 prompt 的成本。 在標準價下，同一段英文 prompt 會比 Sonnet 4.6 貴約 41%，因為相同文字在相同的單價下被算成更多 token。
所有以 token 為基礎的估算。 依照 4.6 抓的每次呼叫預算，或本地 tokenizer 的計數，在 Sonnet 5 上會低估約 40%。要看即時回報的 usage，別靠本地猜。
context window 的餘裕。 同一份文件會多吃掉約 41% 的視窗空間，所以長 context 和 RAG 呼叫每次能塞進的實際文字變少。
速率限制。 相同工作量下，每分鐘 token 上限會快約 41% 用完，吞吐量因此下降。
快取門檻（一點小好處）。 1,024 token 的下限更容易達到，所以在 4.6 上剛好差一點沒過門檻的前綴，在 Sonnet 5 上可能就能快取了。

後面會針對每一點給出實測數字：價格、快取的成本帳，以及 token 計數的變化。

價格、快取、TTL 與 token 計數皆於 2026-07-01 針對 https://synthorai.io/（Anthropic 原生 /v1/messages）實測。每個 token 的單價由實際呼叫回報的 usage 成本推算；推廣價 / 標準價與 8 月 31 日到期日出自 Anthropic 的公告。引用前請先用你自己的 prompt 重跑驗證。

可用性

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

只要換掉 model 欄位，快取路徑上其他東西都不用動。cache_control 背後的運作機制在快取教學裡；快取為什麼存在的架構說明則在系列文的第 1 篇。

價格：現在便宜，九月起回到 Sonnet 4.6 的水準

閘道上的每權杖價格，是從一般（未快取）呼叫的 usage 成本推算出來的：

模型	輸入（$/M）	輸出（$/M）
`claude-sonnet-5`（優惠價，8 月 31 日前）	$2.00	$10.00
`claude-sonnet-5`（標準價，9 月 1 日起）	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

優惠價是實實在在的折扣，而跟 Opus 4.8 相比，這個優勢會長期存在：即使回到 $3 / $15 的標準價，Sonnet 5 還是比 Opus 便宜，而且兩者共用同一套 tokenizer（下面會細講），所以兩種價格下的比較都很乾淨。

但跟 Sonnet 4.6 相比，這個折扣只是暫時的。9 月 1 日起牌價完全相同，任何用今天數字算出來的「Sonnet 5 比 4.6 便宜」的規劃，都會隨優惠一起失效。而且下一節會看到，在相同牌價下，處理同一段文字時 Sonnet 5 其實是比較貴的那一個。

我們不會公布沒跑過的能力測試；Sonnet 5 的品質值不值得比 4.6 多付的成本，這要靠你自己的評測，不是我們說了算。

快取與 TTL：直接沿用

快取的契約跟 Claude 系列其他模型完全一樣。我們跑了一組冷寫入／熱讀取的流程，用固定的 2.2K token 前綴，每次呼叫都改變 user message，這樣就不會有回應層級的快取汙染結果。每次熱輪的成本（以目前的優惠價計算）：

模型	冷輪（快取寫入）	熱輪（快取讀取）	冷 → 熱
`claude-sonnet-5`（優惠價）	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

這些不變量跟整個 Opus 系列一樣成立：

讀取折扣約 90%。 一次熱快取讀取的成本約為輸入價的 10%，符合 Anthropic 文件所寫的「最高 90%」快取讀取節省。命中一次就回本。
1 小時 TTL 行為一致。 Sonnet 5 接受 cache_control: {"type": "ephemeral", "ttl": "1h"}，usage 物件也照舊拆分兩個桶：cache_creation.ephemeral_5m_input_tokens 對 ephemeral_1h_input_tokens。1 小時寫入的加價約為無快取的 2 倍（5 分鐘寫入約為 1.25 倍）；不論 TTL 為何，讀取都維持約 10%。

表格有一點要留意：那些熱輪的金額是以優惠價計算的。9 月 1 日起，把 Sonnet 5 的數字乘以 1.5 倍（輸入 $2 → $3、輸出 $10 → $15）。今天一次熱 Sonnet 5 輪要 $0.0017，到九月大約是 $0.0026，仍低於 Opus 4.8 的 $0.0043，但已經不再低於 Sonnet 4.6。

token 計數的陷阱

九月調價之所以會咬你兩次，關鍵在這裡：同一份 system 文字，在 Sonnet 5 上算出來的 input token 比 Sonnet 4.6 多了約 41%。

模型	Input token（相同文字）	標準價下的 input 成本
`claude-sonnet-4-6`	1,594	$0.0048
`claude-sonnet-5`	2,245	$0.0067
`claude-opus-4-8`	2,245	$0.0112

同一份英文 prompt，Sonnet 5 斷成 2,245 個 token，跟 Opus 4.8 的數字完全一樣，遠高於 Sonnet 4.6 的 1,594。Sonnet 5 用的是 Opus 系列從 4.7 開始採用的較新 tokenizer。

把價格和 token 數放在一起看，狀況就很清楚了：

在優惠期內，token 多出的 41% 被降低 33% 的費率抵銷（$2 對 $3），所以同一個未快取的 prompt 花費跟在 4.6 上差不多，而 warm turn 因為 output 有折扣還更便宜。
從 9 月 1 日起，費率跟 4.6 一樣，但 token 數不一樣。同一份英文 prompt 在 Sonnet 5 上比 Sonnet 4.6 貴約 41%（這個 prefix 是 $0.0067 對 $0.0048），因為相同文字在同樣的每 token 單價下就是被算成更多 token。

對上 Opus 4.8 就沒有這個陷阱：tokenizer 相同（2,245 = 2,245），所以不管是優惠價（2.5 倍）還是標準價（1.67 倍），Sonnet 5 都乾淨俐落地更便宜。

所以編列預算要看九月的帳單，不是七月的：每 token 費率在 9 月 1 日漲 1.5 倍，而較高的 token 數今天就已經算進去了。另外，請從即時回應讀取 cache_creation_input_tokens / cache_read_input_tokens，不要用可能還停留在舊詞彙表的本地 tokenizer。

Sonnet 5 對 Opus 4.8：長期不變的贏面

這是這次發表會永久改變的一組比較。Sonnet 5 和 Opus 4.8 共用同一個 tokenizer，所以任何 prompt 的 token 數都完全相同，成本差異純粹來自費率：優惠價便宜 2.5 倍，標準價便宜 1.67 倍，cold turn、warm turn、input、output 一律如此。今天一個 warm 的快取回合是 $0.0017 對 $0.0043；就算到了九月，也大約是 $0.0026 對 $0.0043。

對於一個大量使用快取、每回合都重複同一段 prefix 的 agent loop 來說，這個差距會不斷累積。決策方式還是老樣子：跑你自己的 eval，如果 Sonnet 5 過得了你的品質門檻，閘道這邊的帳算下來長期都偏向它，不只是撐到八月。如果過不了，只要改一個 model 欄位就能換回 Opus 4.8，快取程式碼完全不用動。

遷移檢查清單

✅ 快取程式碼原封不動照搬。 cache_control 標記、breakpoint 數量、ttl: "1h"、usage 欄位名稱，全都跟 Opus 系列一模一樣。
✅ TTL 選擇照搬。 即時／session 類工作用 5m，突發型或會有停頓的 agent 工作用 1h。
✅ 折扣經濟照搬。 read 約 90%，write 約 1.25 倍（5m），write 約 2 倍（1h）。
⚠️ 在預算上標記 9 月 1 日。 優惠價在 8 月 31 日結束，Sonnet 5 漲到 $3 / $15。在漲價前先把這 1.5 倍的跳升算進去。
⚠️ 重新測 token 數（如果你是從 4.6 或更早的版本過來）。 同樣的文字，Sonnet 5 上的 token 多了約 41%。在標準價下，這會讓同一個 prompt 比 4.6 更貴，而不是更便宜。
⚠️ 相信即時的 usage 物件。 從回應讀取 *_input_tokens 和 cost，不要用舊世代快取下來的估算值。

結論

Sonnet 5 在有限時間內是划算的選擇。跟 Opus 4.8 相比，它長期便宜 1.67 到 2.5 倍，而且快取機制可以直接沿用，所以任何不吃品質的 Opus 工作負載，第一個該拿來評估的就是它。跟 Sonnet 4.6 相比，優勢只有那筆導入折扣：9 月 1 日之後價格就跟 4.6 一樣，而且新的 tokenizer 讓同一段 prompt 實際上花更多錢。折扣可以拿，但預算要用 9 月的數字來抓，答應財務任何數字之前，先拿即時的 usage 物件確認你的 token 數。

完整的快取操作手冊，可以從四篇系列的第一篇 KV Cache 與 TTL 的運作原理開始看，再搭配可實作的 Python 教學。

常見問題

Sonnet 5 比 Sonnet 4.6 便宜嗎？ 只有導入期便宜。到 2026 年 8 月 31 日為止是 $2 / $10，4.6 則是 $3 / $15。9 月 1 日起變成 $3 / $15，兩者相同。而且同一段文字在 Sonnet 5 上大約多算 41% 的 token，所以在標準價格下，同一段 prompt 反而比在 4.6 上更貴。

導入價什麼時候結束？ 根據 Anthropic 的公告，是 2026 年 8 月 31 日。9 月 1 日起，價格變成每百萬 input token $3、每百萬 output token $15。

Sonnet 5 比 Opus 4.8 便宜多少？ 導入價下便宜 2.5 倍，標準價下便宜 1.67 倍，input 和 output 都一樣。兩者共用 tokenizer，所以 token 數一致，差別純粹在費率，兩種價格下都是如此。

我需要改 cache_control 的程式碼嗎？ 不用。標記語法、breakpoint 上限、TTL 選項都跟 Opus 系列一模一樣。只改 model 欄位，其他都不動。快取命中的讀取約為 input 價格的 10%；1 小時寫入約為無快取的 2 倍，5 分鐘寫入約為 1.25 倍。

Sonnet 5 可以直接替換 Opus 4.8 嗎？ 在快取、TTL 和成本這幾個面向上，遷移非常簡單，而且兩種價格下都更便宜。品質方面請自己跑 eval；我們不會發布自己沒跑過的能力 benchmark。模型品質的說法請參考 Anthropic 的 model card。

驗證說明：價格、快取、TTL 和 token 數的數字，是在 2026-07-01 對 https://synthorai.io/ 量測，走 Anthropic 原生的 /v1/messages 路徑，單租戶。每 token 價格取自一般呼叫的 usage 成本；每輪成本是小樣本中位數，使用 2.2K token 的快取前綴，反映目前的導入價。導入價格與 2026 年 8 月 31 日到期時間來自 Anthropic 的 Sonnet 5 公告；折扣／溢價比例則對照 Anthropic Prompt Caching 文件交叉驗證。你的數字會隨 prompt、區域和負載而變。

← 返回部落格