Claude Sonnet 5 の新しい tokenizer：プロンプトあたりのトークンが 41% 増える

2026年7月1日 · claude-sonnet-5 · prompt-cache · cost · model-update

利用可否
価格：今は安いが、9 月には Sonnet 4.6 と同じレートに戻る
キャッシュと TTL：そのまま使える
トークン数の落とし穴
Sonnet 5 対 Opus 4.8：長期的に効く優位性
移行チェックリスト
結論
FAQ

claude-sonnet-5 が Synthorai gateway で使えるようになった。今のところ安い。入力/出力 100 万トークンあたり $2 / $10 で、Opus 4.8 の 2.5 分の 1、Sonnet 4.6 よりも下だ。今のうちに使っておくといい。これは 2026 年 8 月 31 日までの導入価格で、9 月 1 日には $3 / $15 に戻る。Sonnet 4.6 と同じ値段だ。

Claude 系列でキャッシュを使っているなら、キャッシュと TTL の仕様はそのまま流用できる。二度見が必要なのはコストだ。理由は Sonnet 5 のトークンの数え方にある。新しい tokenizer を搭載していて、同じ英語テキストを Sonnet 4.6 より約 41% 多い入力トークンにする。課金も制限もトークン数が基準だ。表示価格は請求額の半分でしかない。

コードを一行も変えず、品質の話にも入る前に、このトークンの変化が何に効いてくるかを整理する。

**プロンプトあたりのコスト。**標準価格では、同じ英語プロンプトが Sonnet 4.6 より約 41% 高くなる。同じテキストがより多くのトークンとして、同じ単価で課金されるからだ。
**トークンベースの見積もりすべて。**4.6 に合わせて組んだ呼び出しごとの予算や、ローカル tokenizer のカウントは、Sonnet 5 では約 40% 少なく出る。ローカルの推定ではなく、実際の usage を計測すること。
**コンテキストウィンドウの余裕。**同じドキュメントがウィンドウを約 41% 多く消費するので、long-context や RAG の呼び出しでは 1 リクエストに入る実テキストが減る。
**レートリミット。**同じワークロードでも tokens-per-minute の上限が約 41% 速く尽き、スループットが削られる。
**キャッシュ対象の判定（ここは少し得）。**最小 1,024 トークンをクリアしやすくなるので、4.6 ではぎりぎり届かなかった prefix が Sonnet 5 ではキャッシュ可能になることがある。

この記事の残りでは、それぞれに実測値を当てていく。価格、キャッシュの経済性、そしてトークン数の変化だ。

価格、キャッシュ、TTL、トークン数は https://synthorai.io/（Anthropic ネイティブの /v1/messages）に対して 2026-07-01 に計測した。トークン単価は実際の呼び出しの usage のコストから算出している。導入価格/標準価格と 8 月 31 日の期限は Anthropic のアナウンスによる。引用する前に自分のプロンプトで再現すること。

利用可否

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

model フィールドを差し替えるだけで、キャッシュのパスは何も動かない。cache_control の仕組みはキャッシュのチュートリアルに、キャッシュがなぜ存在するのかというアーキテクチャはシリーズの Part 1にある。

価格：今は安いが、9 月には Sonnet 4.6 と同じレートに戻る

ゲートウェイでのトークン単価。キャッシュを使わない素の呼び出しの usage コストから算出した。

モデル	入力（$/M）	出力（$/M）
`claude-sonnet-5`（導入価格、8 月 31 日まで）	$2.00	$10.00
`claude-sonnet-5`（通常価格、9 月 1 日から）	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

導入価格は実際に割引になっている。Opus 4.8 との比較では、この安さは今後も続く部分だ。通常価格の $3 / $15 になっても Sonnet 5 は Opus より安いままで、両者は tokenizer を共有している（詳しくは後述）ので、どちらの価格でも比較が素直に成り立つ。

一方 Sonnet 4.6 との比較では、この割引は一時的なものだ。9 月 1 日には表示価格が同じになる。だから今の数字をもとに「Sonnet 5 は 4.6 より安い」という計画を立てても、キャンペーンの終了とともに崩れる。しかも次のセクションで示すように、表示価格が同じなら、同じテキストに対しては Sonnet 5 のほうがむしろ高くつく。

自分たちで実行していない能力ベンチマークは公開しない。Sonnet 5 の品質が 4.6 に対するコスト増に見合うかどうかは、あなたの eval で判断してほしい。

キャッシュと TTL：そのまま使える

キャッシュの仕様は Claude シリーズの他モデルと同じだ。2.2K トークンの固定プレフィックスでコールドライト／ウォームリードの一連の流れを実行し、呼び出しごとにユーザーメッセージを変えることで、レスポンスレベルのキャッシュが結果に混ざらないようにした。現在の導入価格でのウォームターンあたりのコストは以下の通り。

モデル	コールドターン（cache write）	ウォームターン（cache read）	コールド → ウォーム
`claude-sonnet-5`（導入価格）	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

不変条件は Opus シリーズと同じように成り立つ。

読み込み割引は約 90%。 ウォームキャッシュ読み込みのコストは入力価格の約 10% で、Anthropic が文書化している「最大 90%」のキャッシュ読み込み割引と一致する。損益分岐点はヒット 1 回だ。
1 時間 TTL も同じように動く。 cache_control: {"type": "ephemeral", "ttl": "1h"} は Sonnet 5 でも受け付けられ、usage オブジェクトはこれまで通りバケットを分けて返す（cache_creation.ephemeral_5m_input_tokens と ephemeral_1h_input_tokens）。1 時間書き込みのプレミアムはキャッシュなしの約 2 倍（5 分書き込みは約 1.25 倍）で、読み込みは TTL に関係なく約 10% のままだ。

この表には 1 つ注意点がある。ウォームターンのコストは導入価格でのものだ。9 月 1 日からは Sonnet 5 の数値を 1.5 倍する（入力 $2 → $3、出力 $10 → $15）。今 $0.0017 のウォーム Sonnet 5 ターンは、9 月には約 $0.0026 になる。これは Opus 4.8 の $0.0043 より下だが、Sonnet 4.6 より下ではなくなる。

トークン数の落とし穴

9 月のリセットが二重に効いてくる理由がここにある。同じシステムテキストでも、Sonnet 5 は Sonnet 4.6 より入力トークン数が約 41% 多く報告される。

モデル	入力トークン数（同一テキスト）	標準料金での入力コスト
`claude-sonnet-4-6`	1,594	$0.0048
`claude-sonnet-5`	2,245	$0.0067
`claude-opus-4-8`	2,245	$0.0112

Sonnet 5 は同じ英語プロンプトを 2,245 トークンとして数える。これは Opus 4.8 と同じ数値で、Sonnet 4.6 の 1,594 を大きく上回る。Sonnet 5 は Opus 系が 4.7 で採用した新しい tokenizer を搭載して出荷された。

料金とトークン数を合わせて見ると、状況ははっきりする。

導入期間中は、41% のトークン増を 33% 低い単価（$3 に対して $2）が相殺する。だから同じ非キャッシュプロンプトのコストは 4.6 とほぼ変わらず、割引された出力のおかげで warm ターンはむしろ安くなる。
9 月 1 日以降は、単価が 4.6 と揃うがトークン数は揃わない。同じ英語プロンプトのコストは Sonnet 5 で Sonnet 4.6 より約 41% 高くなる（この prefix で $0.0067 に対して $0.0048）。同じテキストが、同じトークン単価のままより多くのトークンとして数えられるだけだからだ。

Opus 4.8 との比較にはこの落とし穴はない。tokenizer が同じ（2,245 = 2,245）なので、Sonnet 5 は導入価格（2.5 倍）でも標準価格（1.67 倍）でもきれいに安い。

だから予算は 7 月分ではなく 9 月分で組むこと。トークン単価は 9 月 1 日に 1.5 倍に上がり、トークン数の増加はすでに今日の時点で織り込まれている。そして cache_creation_input_tokens / cache_read_input_tokens は、旧い語彙のままかもしれないローカルの tokenizer ではなく、ライブレスポンスから読むこと。

Sonnet 5 対 Opus 4.8：長期的に効く優位性

これは今回のローンチが恒久的に変える比較だ。Sonnet 5 と Opus 4.8 は tokenizer を共有するので、どんなプロンプトでもトークン数は同一になり、コスト差は純粋に単価だけになる。導入価格で 2.5 倍安く、標準価格で 1.67 倍安い。 cold ターンでも warm ターンでも、入力でも出力でも同じだ。warm なキャッシュターンは今日の時点で $0.0017 対 $0.0043、9 月でもおおよそ $0.0026 対 $0.0043 になる。

prefix が毎ターン繰り返される高頻度のキャッシュ利用エージェントループでは、この差が積み上がっていく。判断はいつも通りだ。自前の eval を回し、Sonnet 5 が品質基準をクリアするなら、ゲートウェイの計算は 8 月までではなく長期的に Sonnet 5 に味方する。クリアしないなら、同じキャッシュコードのまま model フィールドを 1 つ書き換えれば Opus 4.8 に戻せる。

移行チェックリスト

✅ キャッシュコードはそのまま流用できる。 cache_control マーカー、ブレークポイント数、ttl: "1h"、usage のフィールド名はすべて Opus 系と同一だ。
✅ TTL の選び方も流用できる。 ライブ／セッション系のワークロードには 5m、バースト的な処理や中断を挟むエージェント処理には 1h。
✅ 割引の経済性も流用できる。 読み取りは約 90%、書き込みは約 1.25 倍（5m）、約 2 倍（1h）。
⚠️ 9 月 1 日を予算にマークしておく。 導入価格は 8 月 31 日に終了し、Sonnet 5 は $3 / $15 になる。1.5 倍の値上げが来る前にモデル化しておくこと。
⚠️ トークン数を測り直す（4.6 以前から移行する場合）。 同じテキストでも Sonnet 5 では約 41% 多いトークンになる。標準価格では、同じプロンプトが 4.6 より安くなるどころか高くなる。
⚠️ ライブの usage オブジェクトを信頼する。 *_input_tokens と cost は、旧世代のキャッシュされた見積もりではなくレスポンスから読むこと。

結論

Sonnet 5 は期限付きながらお買い得だ。Opus 4.8 と比べると 1.67〜2.5 倍安く、しかもこの差は今後も続く。キャッシュもそのまま差し替えられるので、品質がクリティカルではない Opus ワークロードなら、まず最初に eval すべき候補になる。一方 Sonnet 4.6 に対する優位は導入割引だけだ。9 月 1 日には価格が 4.6 と同じになり、新しい tokenizer のせいで同じプロンプトでもむしろコストが上がる。割引は使えばいいが、予算は 9 月時点の数字で見積もり、財務に約束する前に本番の usage オブジェクトで token 数を確認しておくこと。

キャッシュ全体の運用については、How KV Cache & TTL Work から始まる 4 部構成のシリーズと、動く Python チュートリアルを参照。

FAQ

Sonnet 5 は Sonnet 4.6 より安いのか？ 導入期間中だけだ。2026 年 8 月 31 日までは $2 / $10 で、4.6 の $3 / $15 より安い。9 月 1 日からは $3 / $15 で同額になる。しかも同じテキストが Sonnet 5 では token 数にして約 41% 多くカウントされるため、通常価格では同じプロンプトが 4.6 より高くつく。

導入価格はいつ終わるのか？ Anthropic の発表によれば 2026 年 8 月 31 日だ。9 月 1 日からは input 100 万 token あたり $3、output 100 万 token あたり $15 になる。

Sonnet 5 は Opus 4.8 よりどれだけ安いのか？ 導入価格で 2.5 倍、通常価格で 1.67 倍。input・output の両方でそうだ。tokenizer が共通なので token 数は一致し、差は純粋に単価だけ。これは両方の価格帯で言える。

cache_control のコードを変える必要はあるか？ ない。マーカー構文、breakpoint の上限、TTL のオプションは Opus 系とまったく同じだ。model フィールドを変えるだけで、他は何もいらない。ウォームリードは input 価格の約 10%、1 時間の書き込みはキャッシュなしの約 2 倍、5 分の書き込みは約 1.25 倍になる。

Sonnet 5 は Opus 4.8 の drop-in な代替になるか？ キャッシュ、TTL、コストの面では移行は簡単で、どちらの価格帯でも安い。品質については自分で eval を回すこと。走らせていない性能ベンチマークをこちらから出すことはしない。モデル品質に関する主張は Anthropic のモデルカードを参照。

検証条件：価格、キャッシュ、TTL、token 数の数値は、2026-07-01 に https://synthorai.io/ に対して Anthropic ネイティブの /v1/messages パス、シングルテナントで計測した。token あたりの価格は素の呼び出しでの usage コストから算出。ターンあたりのコストは 2.2K token のキャッシュ済みプレフィックスを使った少数サンプルの中央値で、現在の導入価格を反映している。導入価格と 2026 年 8 月 31 日の期限は Anthropic の Sonnet 5 発表による。割引・割増の比率は Anthropic Prompt Caching docsと照合済み。実際の数値はプロンプト、リージョン、負荷によって変わる。

← ブログに戻る