🎁 新用戶 免費註冊,送 10 次呼叫,最高 $1,免綁卡。
Claude Sonnet 5 的新 Tokenizer:同樣的 Prompt 多出 41% 的 Token

Claude Sonnet 5 的新 Tokenizer:同樣的 Prompt 多出 41% 的 Token

目錄
  1. 可用性
  2. 價格:現在便宜,九月起回到 Sonnet 4.6 的水準
  3. 快取與 TTL:直接沿用
  4. token 計數的陷阱
  5. Sonnet 5 對 Opus 4.8:長期不變的贏面
  6. 遷移檢查清單
  7. 結論
  8. 常見問題

claude-sonnet-5 已經在 Synthorai 閘道上線,現在的價格很便宜:每百萬 input / output token 為 $2 / $10,比 Opus 4.8 便宜 2.5 倍,也低於 Sonnet 4.6。趁還便宜的時候多用一點。這是到 2026 年 8 月 31 日為止的推廣價;9 月 1 日起會回到 $3 / $15,跟 Sonnet 4.6 標價一樣。

如果你對 Claude 系列做了快取,快取與 TTL 的規則可以直接沿用,不用改。真正要看第二眼的是成本,原因在於 Sonnet 5 怎麼計算 token。它換上了新的 tokenizer,同一段英文文字算下來會比 Sonnet 4.6 多出約 41% 的 input token,而 token 數量正是你付費和受限的依據。標價只是帳單的一半。

在還沒動到任何程式碼、也還沒討論品質之前,先看這個 token 變化會影響到哪些地方:

  • 每個 prompt 的成本。 在標準價下,同一段英文 prompt 會比 Sonnet 4.6 貴約 41%,因為相同文字在相同的單價下被算成更多 token。
  • 所有以 token 為基礎的估算。 依照 4.6 抓的每次呼叫預算,或本地 tokenizer 的計數,在 Sonnet 5 上會低估約 40%。要看即時回報的 usage,別靠本地猜。
  • context window 的餘裕。 同一份文件會多吃掉約 41% 的視窗空間,所以長 context 和 RAG 呼叫每次能塞進的實際文字變少。
  • 速率限制。 相同工作量下,每分鐘 token 上限會快約 41% 用完,吞吐量因此下降。
  • 快取門檻(一點小好處)。 1,024 token 的下限更容易達到,所以在 4.6 上剛好差一點沒過門檻的前綴,在 Sonnet 5 上可能就能快取了。

後面會針對每一點給出實測數字:價格、快取的成本帳,以及 token 計數的變化。

價格、快取、TTL 與 token 計數皆於 2026-07-01 針對 https://synthorai.io/(Anthropic 原生 /v1/messages)實測。每個 token 的單價由實際呼叫回報的 usage 成本推算;推廣價 / 標準價與 8 月 31 日到期日出自 Anthropic 的公告。引用前請先用你自己的 prompt 重跑驗證。


可用性

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

只要換掉 model 欄位,快取路徑上其他東西都不用動。cache_control 背後的運作機制在快取教學裡;快取為什麼存在的架構說明則在系列文的第 1 篇


價格:現在便宜,九月起回到 Sonnet 4.6 的水準

閘道上的每權杖價格,是從一般(未快取)呼叫的 usage 成本推算出來的:

模型輸入($/M)輸出($/M)
claude-sonnet-5(優惠價,8 月 31 日前)$2.00$10.00
claude-sonnet-5(標準價,9 月 1 日起)$3.00$15.00
claude-sonnet-4-6$3.00$15.00
claude-opus-4-8$5.00$25.00

優惠價是實實在在的折扣,而跟 Opus 4.8 相比,這個優勢會長期存在:即使回到 $3 / $15 的標準價,Sonnet 5 還是比 Opus 便宜,而且兩者共用同一套 tokenizer(下面會細講),所以兩種價格下的比較都很乾淨。

但跟 Sonnet 4.6 相比,這個折扣只是暫時的。9 月 1 日起牌價完全相同,任何用今天數字算出來的「Sonnet 5 比 4.6 便宜」的規劃,都會隨優惠一起失效。而且下一節會看到,在相同牌價下,處理同一段文字時 Sonnet 5 其實是比較貴的那一個。

我們不會公布沒跑過的能力測試;Sonnet 5 的品質值不值得比 4.6 多付的成本,這要靠你自己的評測,不是我們說了算。


快取與 TTL:直接沿用

快取的契約跟 Claude 系列其他模型完全一樣。我們跑了一組冷寫入/熱讀取的流程,用固定的 2.2K token 前綴,每次呼叫都改變 user message,這樣就不會有回應層級的快取汙染結果。每次熱輪的成本(以目前的優惠價計算):

模型冷輪(快取寫入)熱輪(快取讀取)冷 → 熱
claude-sonnet-5(優惠價)$0.0069$0.00174.0×
claude-sonnet-4-6$0.0079$0.00243.3×
claude-opus-4-8$0.0172$0.00434.0×

這些不變量跟整個 Opus 系列一樣成立:

  • 讀取折扣約 90%。 一次熱快取讀取的成本約為輸入價的 10%,符合 Anthropic 文件所寫的「最高 90%」快取讀取節省。命中一次就回本。
  • 1 小時 TTL 行為一致。 Sonnet 5 接受 cache_control: {"type": "ephemeral", "ttl": "1h"}usage 物件也照舊拆分兩個桶:cache_creation.ephemeral_5m_input_tokensephemeral_1h_input_tokens。1 小時寫入的加價約為無快取的 2 倍(5 分鐘寫入約為 1.25 倍);不論 TTL 為何,讀取都維持約 10%。

表格有一點要留意:那些熱輪的金額是以優惠價計算的。9 月 1 日起,把 Sonnet 5 的數字乘以 1.5 倍(輸入 $2 → $3、輸出 $10 → $15)。今天一次熱 Sonnet 5 輪要 $0.0017,到九月大約是 $0.0026,仍低於 Opus 4.8 的 $0.0043,但已經不再低於 Sonnet 4.6。


token 計數的陷阱

九月調價之所以會咬你兩次,關鍵在這裡:同一份 system 文字,在 Sonnet 5 上算出來的 input token 比 Sonnet 4.6 多了約 41%。

模型Input token(相同文字)標準價下的 input 成本
claude-sonnet-4-61,594$0.0048
claude-sonnet-52,245$0.0067
claude-opus-4-82,245$0.0112

同一份英文 prompt,Sonnet 5 斷成 2,245 個 token,跟 Opus 4.8 的數字完全一樣,遠高於 Sonnet 4.6 的 1,594。Sonnet 5 用的是 Opus 系列從 4.7 開始採用的較新 tokenizer。

把價格和 token 數放在一起看,狀況就很清楚了:

  • 在優惠期內,token 多出的 41% 被降低 33% 的費率抵銷($2 對 $3),所以同一個未快取的 prompt 花費跟在 4.6 上差不多,而 warm turn 因為 output 有折扣還更便宜。
  • 從 9 月 1 日起,費率跟 4.6 一樣,但 token 數不一樣。同一份英文 prompt 在 Sonnet 5 上比 Sonnet 4.6 貴約 41%(這個 prefix 是 $0.0067 對 $0.0048),因為相同文字在同樣的每 token 單價下就是被算成更多 token。

對上 Opus 4.8 就沒有這個陷阱:tokenizer 相同(2,245 = 2,245),所以不管是優惠價(2.5 倍)還是標準價(1.67 倍),Sonnet 5 都乾淨俐落地更便宜。

所以編列預算要看九月的帳單,不是七月的:每 token 費率在 9 月 1 日漲 1.5 倍,而較高的 token 數今天就已經算進去了。另外,請從即時回應讀取 cache_creation_input_tokens / cache_read_input_tokens,不要用可能還停留在舊詞彙表的本地 tokenizer。


Sonnet 5 對 Opus 4.8:長期不變的贏面

這是這次發表會永久改變的一組比較。Sonnet 5 和 Opus 4.8 共用同一個 tokenizer,所以任何 prompt 的 token 數都完全相同,成本差異純粹來自費率:優惠價便宜 2.5 倍,標準價便宜 1.67 倍,cold turn、warm turn、input、output 一律如此。今天一個 warm 的快取回合是 $0.0017 對 $0.0043;就算到了九月,也大約是 $0.0026 對 $0.0043。

對於一個大量使用快取、每回合都重複同一段 prefix 的 agent loop 來說,這個差距會不斷累積。決策方式還是老樣子:跑你自己的 eval,如果 Sonnet 5 過得了你的品質門檻,閘道這邊的帳算下來長期都偏向它,不只是撐到八月。如果過不了,只要改一個 model 欄位就能換回 Opus 4.8,快取程式碼完全不用動。


遷移檢查清單

  • 快取程式碼原封不動照搬。 cache_control 標記、breakpoint 數量、ttl: "1h"usage 欄位名稱,全都跟 Opus 系列一模一樣。
  • TTL 選擇照搬。 即時/session 類工作用 5m,突發型或會有停頓的 agent 工作用 1h。
  • 折扣經濟照搬。 read 約 90%,write 約 1.25 倍(5m),write 約 2 倍(1h)。
  • ⚠️ 在預算上標記 9 月 1 日。 優惠價在 8 月 31 日結束,Sonnet 5 漲到 $3 / $15。在漲價前先把這 1.5 倍的跳升算進去。
  • ⚠️ 重新測 token 數(如果你是從 4.6 或更早的版本過來)。 同樣的文字,Sonnet 5 上的 token 多了約 41%。在標準價下,這會讓同一個 prompt 比 4.6 更貴,而不是更便宜。
  • ⚠️ 相信即時的 usage 物件。 從回應讀取 *_input_tokenscost,不要用舊世代快取下來的估算值。

結論

Sonnet 5 在有限時間內是划算的選擇。跟 Opus 4.8 相比,它長期便宜 1.67 到 2.5 倍,而且快取機制可以直接沿用,所以任何不吃品質的 Opus 工作負載,第一個該拿來評估的就是它。跟 Sonnet 4.6 相比,優勢只有那筆導入折扣:9 月 1 日之後價格就跟 4.6 一樣,而且新的 tokenizer 讓同一段 prompt 實際上花更多錢。折扣可以拿,但預算要用 9 月的數字來抓,答應財務任何數字之前,先拿即時的 usage 物件確認你的 token 數。

完整的快取操作手冊,可以從四篇系列的第一篇 KV Cache 與 TTL 的運作原理 開始看,再搭配可實作的 Python 教學


常見問題

Sonnet 5 比 Sonnet 4.6 便宜嗎? 只有導入期便宜。到 2026 年 8 月 31 日為止是 $2 / $10,4.6 則是 $3 / $15。9 月 1 日起變成 $3 / $15,兩者相同。而且同一段文字在 Sonnet 5 上大約多算 41% 的 token,所以在標準價格下,同一段 prompt 反而比在 4.6 上更貴。

導入價什麼時候結束? 根據 Anthropic 的公告,是 2026 年 8 月 31 日。9 月 1 日起,價格變成每百萬 input token $3、每百萬 output token $15。

Sonnet 5 比 Opus 4.8 便宜多少? 導入價下便宜 2.5 倍,標準價下便宜 1.67 倍,input 和 output 都一樣。兩者共用 tokenizer,所以 token 數一致,差別純粹在費率,兩種價格下都是如此。

我需要改 cache_control 的程式碼嗎? 不用。標記語法、breakpoint 上限、TTL 選項都跟 Opus 系列一模一樣。只改 model 欄位,其他都不動。快取命中的讀取約為 input 價格的 10%;1 小時寫入約為無快取的 2 倍,5 分鐘寫入約為 1.25 倍。

Sonnet 5 可以直接替換 Opus 4.8 嗎? 在快取、TTL 和成本這幾個面向上,遷移非常簡單,而且兩種價格下都更便宜。品質方面請自己跑 eval;我們不會發布自己沒跑過的能力 benchmark。模型品質的說法請參考 Anthropic 的 model card。


驗證說明:價格、快取、TTL 和 token 數的數字,是在 2026-07-01 對 https://synthorai.io/ 量測,走 Anthropic 原生的 /v1/messages 路徑,單租戶。每 token 價格取自一般呼叫的 usage 成本;每輪成本是小樣本中位數,使用 2.2K token 的快取前綴,反映目前的導入價。導入價格與 2026 年 8 月 31 日到期時間來自 Anthropic 的 Sonnet 5 公告;折扣/溢價比例則對照 Anthropic Prompt Caching 文件 交叉驗證。你的數字會隨 prompt、區域和負載而變。

← 返回部落格