Claude Sonnet 5의 새 토크나이저: 프롬프트당 토큰이 41% 증가

2026년 7월 1일 · claude-sonnet-5 · prompt-cache · cost · model-update

사용 가능 여부
가격: 지금은 저렴하지만 9월부터 Sonnet 4.6과 같은 요율로
캐싱과 TTL: 그대로 갖다 쓰면 된다
token 카운트의 함정
Sonnet 5 대 Opus 4.8：오래 가는 승부
마이그레이션 체크리스트
핵심 요약
FAQ

claude-sonnet-5 이 Synthorai 게이트웨이에서 사용 가능하며, 지금은 저렴하다. 입력/출력 100만 토큰당 $2 / $10 로, Opus 4.8보다 2.5배 싸고 Sonnet 4.6보다도 낮다. 있을 때 누리자. 이건 2026년 8월 31일까지 적용되는 출시 프로모션 가격이고, 9월 1일부터는 $3 / $15 로 돌아간다. Sonnet 4.6과 같은 정가다.

Claude 계열에 캐시를 걸어 쓰고 있다면 캐싱과 TTL 계약은 그대로 옮겨온다. 두 번 봐야 할 곳은 비용이고, 이유는 Sonnet 5가 토큰을 세는 방식에 있다. 새 토크나이저가 탑재되어 같은 영어 텍스트를 Sonnet 4.6보다 약 41% 많은 입력 토큰으로 바꾼다. 그리고 과금과 제한의 기준은 토큰 수다. 정가는 청구서의 절반일 뿐이다.

코드 변경이나 품질 문제를 따지기 전에, 이 토큰 변화가 건드리는 것들은 다음과 같다.

프롬프트당 비용. 표준 요율에서 같은 영어 프롬프트는 Sonnet 4.6보다 약 41% 더 든다. 같은 텍스트가 같은 토큰당 단가로 더 많은 토큰으로 청구되기 때문이다.
토큰 기반 추정치 전부. 4.6에 맞춰 잡은 호출당 예산이나 로컬 토크나이저 계산값은 Sonnet 5에서 약 40% 낮게 나온다. 로컬 추정 대신 실제 usage 를 계측하자.
컨텍스트 윈도우 여유. 같은 문서가 윈도우를 약 41% 더 잡아먹으므로, long-context와 RAG 호출은 요청당 담을 수 있는 실제 텍스트가 줄어든다.
레이트 리밋. 분당 토큰 상한이 같은 워크로드에서 약 41% 빨리 소진되어 처리량이 깎인다.
캐시 적격성(작은 이점). 최소 1,024 토큰 기준을 넘기기 쉬워진다. 4.6에서 그 기준에 살짝 못 미치던 prefix가 Sonnet 5에서는 캐시 가능해질 수 있다.

이하에서는 각 항목에 측정한 수치를 붙인다. 가격, 캐싱 경제성, 그리고 토큰 수 변화다.

가격, 캐싱, TTL, 토큰 수는 2026-07-01에 https://synthorai.io/ (Anthropic 네이티브 /v1/messages)를 대상으로 측정했다. 토큰당 가격은 실제 호출의 usage 비용에서 도출했고, 프로모션/표준 요율과 8월 31일 만료는 Anthropic의 공지에서 가져왔다. 인용하기 전에 직접 자신의 프롬프트로 재현해보자.

사용 가능 여부

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-sonnet-5",            # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # cache_creation_input_tokens, cache_read_input_tokens, cost

model 필드만 바꾸면 캐싱 경로는 아무것도 움직이지 않는다. cache_control 뒤에서 돌아가는 메커니즘은 캐싱 튜토리얼에 있고, 캐시가 존재하는 이유의 아키텍처는 시리즈 1편에 있다.

가격: 지금은 저렴하지만 9월부터 Sonnet 4.6과 같은 요율로

게이트웨이의 토큰당 가격이다. 캐시를 쓰지 않은 일반 호출의 usage 비용에서 산출했다.

모델	입력 ($/M)	출력 ($/M)
`claude-sonnet-5` (도입 요율, 8월 31일까지)	$2.00	$10.00
`claude-sonnet-5` (정상 요율, 9월 1일부터)	$3.00	$15.00
`claude-sonnet-4-6`	$3.00	$15.00
`claude-opus-4-8`	$5.00	$25.00

도입 요율은 실질적인 할인이다. Opus 4.8 과 비교하면 이 할인은 계속 유효한 부분이다. 정상 요율인 $3 / $15 로 올라가도 Sonnet 5는 여전히 Opus보다 싸고, 두 모델은 tokenizer를 공유하기 때문에(뒤에서 더 다룬다) 두 가격 모두에서 비교가 깔끔하다.

Sonnet 4.6 과 비교하면 할인은 한시적이다. 9월 1일에는 표시 가격이 똑같아진다. 그러니 오늘 숫자를 근거로 세운 “Sonnet 5가 4.6보다 싸다”는 계획은 프로모션이 끝나면 함께 사라진다. 다음 절에서 보겠지만, 표시 가격이 같아지면 같은 텍스트에 대해서는 오히려 Sonnet 5가 더 비싸다.

우리는 직접 돌려보지 않은 성능 벤치마크는 공개하지 않는다. Sonnet 5의 품질이 4.6 대비 비용을 정당화하는지는 우리가 아니라 당신의 eval이 판단할 문제다.

캐싱과 TTL: 그대로 갖다 쓰면 된다

캐싱 계약은 나머지 Claude 라인과 동일하다. 2.2K 토큰짜리 고정 prefix로 콜드 라이트 / 웜 리드 시퀀스를 돌렸고, 매 호출마다 user 메시지를 바꿔서 응답 단위 캐시가 결과에 섞여 들어가지 않게 했다. 현재 도입 요율 기준 웜 턴당 비용은 다음과 같다.

모델	콜드 턴 (캐시 write)	웜 턴 (캐시 read)	콜드 → 웜
`claude-sonnet-5` (도입 요율)	$0.0069	$0.0017	4.0×
`claude-sonnet-4-6`	$0.0079	$0.0024	3.3×
`claude-opus-4-8`	$0.0172	$0.0043	4.0×

불변식은 Opus 라인 전반에서와 똑같이 성립한다.

read 할인 ≈ 90%. 웜 캐시 read는 입력 가격의 약 10% 수준이며, 이는 Anthropic이 문서에 밝힌 “최대 90%” 캐시 read 절감과 맞아떨어진다. 손익분기는 한 번만 hit하면 된다.
1시간 TTL도 동일하게 동작한다. Sonnet 5에서 cache_control: {"type": "ephemeral", "ttl": "1h"} 가 그대로 먹히고, usage 객체도 예전처럼 버킷을 나눈다: cache_creation.ephemeral_5m_input_tokens 와 ephemeral_1h_input_tokens. 1시간 write 프리미엄은 캐시 미사용 대비 약 2배(5분 write는 약 1.25배)이고, read는 TTL과 무관하게 ≈10%를 유지한다.

표에 하나 주의할 점이 있다. 저 웜 턴 비용은 도입 요율 기준이다. 9월 1일부터는 Sonnet 5 수치에 1.5배를 곱하면 된다(입력 $2 → $3, 출력 $10 → $15). 오늘 $0.0017인 웜 Sonnet 5 턴은 9월에 약 $0.0026이 된다. 여전히 Opus 4.8의 $0.0043보다는 낮지만, Sonnet 4.6보다는 더 이상 낮지 않다.

token 카운트의 함정

9월 리셋이 두 번 아픈 이유가 여기 있다. 동일한 시스템 텍스트가 Sonnet 5 에서는 Sonnet 4.6 보다 input token 을 약 41% 더 많이 잡는다.

모델	input token（동일 텍스트）	표준 가격 기준 input 비용
`claude-sonnet-4-6`	1,594	$0.0048
`claude-sonnet-5`	2,245	$0.0067
`claude-opus-4-8`	2,245	$0.0112

Sonnet 5 는 같은 영어 prompt 를 2,245 token 으로 계산하는데, 이는 Opus 4.8 이 보고하는 수치와 같고 Sonnet 4.6 의 1,594 보다 훨씬 많다. Sonnet 5 는 Opus 계열이 4.7 에서 채택한 새 tokenizer 를 탑재하고 나왔다.

가격과 token 카운트를 함께 놓고 보면 그림이 명확해진다.

소개 기간 동안은 token 이 41% 늘어난 대신 요율이 33% 낮아서（$2 대 $3）， 캐시되지 않은 같은 prompt 비용은 4.6 과 비슷한 수준이고， output 이 할인된 덕에 warm turn 은 더 싸게 돈다.
9월 1일부터는 요율이 4.6 과 같아지지만 token 카운트는 그렇지 않다. 같은 영어 prompt 가 Sonnet 5 에서 Sonnet 4.6 보다 약 41% 더 비싸다（이 prefix 기준 $0.0067 대 $0.0048）. 같은 텍스트가 token 당 같은 가격에 단지 더 많은 token 으로 계산되기 때문이다.

Opus 4.8 과 비교할 때는 이런 함정이 없다. tokenizer 가 같으므로（2,245 = 2,245）， Sonnet 5 는 소개 요율（2.5×）에서도 표준 요율（1.67×）에서도 깔끔하게 더 싸다.

그러니 7월이 아니라 9월 청구서를 기준으로 예산을 잡아라. token 당 요율은 9월 1일에 1.5× 오르고， 높아진 token 카운트는 이미 오늘부터 반영돼 있다. 그리고 여전히 옛 vocabulary 를 쓰고 있을지 모르는 로컬 tokenizer 대신， 실제 응답에서 cache_creation_input_tokens / cache_read_input_tokens 를 읽어라.

Sonnet 5 대 Opus 4.8：오래 가는 승부

이 비교는 이번 출시로 영구히 바뀌는 지점이다. Sonnet 5 와 Opus 4.8 은 tokenizer 를 공유하므로 어떤 prompt 든 token 카운트가 동일하고， 비용 차이는 순전히 요율에서만 나온다. 소개 가격에서 2.5× 저렴하고 표준 가격에서 1.67× 저렴하며， cold turn， warm turn， input， output 모두 마찬가지다. warm 캐시 turn 은 오늘 기준 $0.0017 대 $0.0043 이고， 9월에도 대략 $0.0026 대 $0.0043 이다.

prefix 가 매 turn 반복되는 대용량 캐싱 agent loop 에서는 이 격차가 누적된다. 판단은 늘 같다. 직접 eval 을 돌려보고 Sonnet 5 가 품질 기준을 넘으면， gateway 계산상 유리한 선택이 8월까지만이 아니라 계속 유지된다. 넘지 못하면 같은 캐싱 코드에서 model 필드 하나만 바꾸면 Opus 4.8 이다.

마이그레이션 체크리스트

✅ 캐싱 코드는 그대로 넘어간다. cache_control 마커， breakpoint 개수， ttl: "1h"， usage 필드 이름 모두 Opus 계열과 동일하다.
✅ TTL 선택도 그대로 넘어간다. 라이브/세션 워크로드는 5m， 버스트성 작업이나 중단이 있는 agent 작업은 1h.
✅ 할인 경제성도 그대로 넘어간다. read 약 90%， write 약 1.25×（5m）， write 약 2×（1h）.
⚠️ 예산에 9월 1일을 표시해라. 소개 요율은 8월 31일에 끝나고 Sonnet 5 는 $3 / $15 로 간다. 1.5× 인상을 닥치기 전에 모델링해라.
⚠️ token 카운트를 다시 측정해라（4.6 이하 기준）. 같은 텍스트가 Sonnet 5 에서는 약 41% 더 많은 token 이다. 표준 가격에서는 같은 prompt 가 4.6 보다 싸지는 게 아니라 더 비싸진다.
⚠️ 라이브 usage 객체를 믿어라. 옛 세대의 캐시된 추정치가 아니라 응답에서 *_input_tokens 와 cost 를 읽어라.

핵심 요약

Sonnet 5 는 기한이 걸린 좋은 조건의 모델이다. Opus 4.8 과 비교하면 1.67~2.5배 꾸준히 저렴하고 캐싱 경로도 그대로 가져다 쓸 수 있다. 품질이 결정적이지 않은 Opus 워크로드라면 가장 먼저 평가해 볼 대상이다. Sonnet 4.6 과 비교하면 이점은 도입 할인뿐이다. 9월 1일이면 가격이 4.6 과 같아지고, 새 tokenizer 때문에 같은 프롬프트라도 실제로는 더 비싸진다. 할인은 챙기되 예산은 9월 기준 숫자로 잡아라. 그리고 재무팀에 뭔가 약속하기 전에 실제 usage 객체로 token 수를 확인하라.

캐싱 전략 전체는 How KV Cache & TTL Work로 시작하는 4부작 시리즈와 실제 동작하는 Python 튜토리얼을 참고하라.

FAQ

Sonnet 5 가 Sonnet 4.6 보다 저렴한가? 도입 기간에만 그렇다. 2026년 8월 31일까지는 $2 / $10 으로, 4.6 의 $3 / $15 보다 싸다. 9월 1일부터는 $3 / $15 로 같은 요율이다. 게다가 같은 텍스트가 Sonnet 5 에서는 약 41% 더 많은 token 으로 계산되기 때문에, 표준 가격에서는 같은 프롬프트가 4.6 보다 더 비싸다.

도입 가격은 언제 끝나는가? Anthropic 발표 기준 2026년 8월 31일이다. 9월 1일부터 요율은 input 100만 token 당 $3, output 100만 token 당 $15 가 된다.

Sonnet 5 는 Opus 4.8 보다 얼마나 저렴한가? 도입 요율에서 2.5배, 표준 요율에서 1.67배 저렴하며, input 과 output 모두 마찬가지다. tokenizer 를 공유하므로 token 수는 일치하고, 차이는 두 가격 모두 순수하게 요율에서만 나온다.

cache_control 코드를 바꿔야 하나? 아니다. 마커 문법, breakpoint 개수 제한, TTL 옵션이 Opus 계열과 동일하다. model 필드만 바꾸면 되고 나머지는 그대로다. 웜 리드는 input 가격의 약 10%, 1시간 write 는 캐시 없는 경우의 약 2배, 5분 write 는 약 1.25배다.

Sonnet 5 는 Opus 4.8 을 그대로 대체할 수 있나? 캐싱, TTL, 비용 측면에서는 마이그레이션이 간단하고 두 가격 모두에서 더 싸다. 품질은 직접 평가해 보라. 우리는 직접 돌려보지 않은 성능 벤치마크는 공개하지 않는다. 모델 품질 관련 주장은 Anthropic 의 model card 를 참고하라.

검증: 가격, 캐싱, TTL, token 수 수치는 2026-07-01 에 https://synthorai.io/를 대상으로 Anthropic 네이티브 /v1/messages 경로, 단일 테넌트에서 측정했다. token 당 가격은 일반 호출의 usage 비용에서 산출했고, 턴당 비용은 2.2K token 캐시 프리픽스를 사용한 소표본 중앙값으로 현재 도입 요율을 반영한다. 도입 가격과 2026년 8월 31일 만료일은 Anthropic 의 Sonnet 5 발표에서 가져왔고, 할인/프리미엄 비율은 Anthropic Prompt Caching 문서와 교차 확인했다. 실제 수치는 프롬프트, 리전, 부하에 따라 달라진다.

← 블로그로 돌아가기