Claude Fable 5: 캐싱, 토크나이저 & Opus 4.6 대비 비용
claude-fable-5가 이제 Synthorai 게이트웨이에서 사용 가능합니다. Claude 라인에서 캐싱을 사용하고 있다면, 반가운 소식은 캐싱 및 TTL 계약이 그대로 이어진다는 점입니다. 동일한 cache_control 마커, 동일한 5분 및 1시간 TTL, 동일한 쓰기 프리미엄, 동일한 깊은 읽기 할인이 유지됩니다. 캐싱 코드는 문자열 하나만 바꾸면 그대로 이전됩니다.
예산을 고려해야 할 부분은 캐시 메커니즘이 아니라 요금입니다. Fable 5는 Opus 토큰 가격의 2배로 책정되어 있으며, 동일한 영어 텍스트를 Opus 4.6보다 약 45% 더 많은 토큰으로 토크나이즈합니다(4.6 이후 토크나이저를 사용하며, Opus 4.8과 동일합니다). 이 두 배수가 중첩됩니다. 이 포스트에서 모든 수치를 직접 측정했으니 여러분이 따로 측정할 필요가 없습니다.
아래의 모든 수치는 2026-06-10에
https://synthorai.io/(Anthropic 네이티브/v1/messages)를 대상으로, 안정적인 약 6.6–9.6K 토큰 영어 시스템 프롬프트, 소규모max_tokens, 단일 순차 실행 조건에서 측정되었습니다. 비용 수치는 게이트웨이usage.cost필드에서 읽어왔으며, 비율(토큰 수, 쓰기 프리미엄, 읽기 할인, 모델 간 비용)이 이식 가능한 부분입니다 — 절대적인 달러 금액은 프롬프트에 따라 달라집니다. 수치를 인용하기 전에 자신의 프롬프트로 직접 재현해 보세요.
가용성
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-fable-5", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost
claude-opus-4-6 → claude-fable-5로 교체하면 캐싱 경로에서 변경할 것이 없습니다. Fable 5는 1M 토큰 컨텍스트 창을 가진 Anthropic 네이티브 모델입니다. 동작 관련 참고 사항: 이 모델은 추론 모델이며 기본적으로 thinking 토큰을 출력합니다 — 간단한 “reply OK” 요청에서도 우리 실행에서 output_tokens_details.thinking_tokens > 0이 반환되었으며, Opus 4.6/4.8은 0을 반환했습니다. 출력 토큰 예산을 그에 맞게 책정하세요. cache_control의 메커니즘은 캐싱 튜토리얼에서 다루며, 캐시가 존재하는 이유에 대한 아키텍처는 시리즈 1부에서 확인할 수 있습니다.
핵심: Fable 5는 새 토크나이저를 사용합니다
Opus 라인의 토큰 수는 4.7 세대에서 증가했습니다. 4.6에서 약 6.6K 토큰으로 계산되던 동일한 영어 텍스트가 4.8에서는 약 9.6K로 계산됩니다. Fable 5는 새로운 쪽에 해당합니다 — 동일한 텍스트가 Opus 4.8과 정확히 동일한 토큰 수를 보고합니다.
| 모델 | 입력 토큰 (동일 텍스트) | 토크나이저 세대 |
|---|---|---|
claude-opus-4-6 | 6,614 | pre-4.7 |
claude-opus-4-8 | 9,619 | post-4.7 |
claude-fable-5 | 9,619 | post-4.7 (4.8과 동일) |
동일한 시스템 프롬프트가 Fable 5에서 Opus 4.6보다 약 45% 더 많은 토큰입니다(9,619 / 6,614 = 1.45). 이것이 마이그레이션 전에 가장 중요하게 내면화해야 할 수치입니다. 비용, 1,024 토큰 캐시 적격 기준, 호출당 예산 등 모든 하위 수치가 토큰 단위로 계산되기 때문입니다.
이것은 측정된 관찰을 설명하는 것입니다 — 동일한 텍스트, Fable 5와 Opus 4.8에서 동일한 토큰 수, Opus 4.6보다 약 45% 높음 — 4.7 세대에 적용된 토크나이저/어휘 업데이트와 가장 일치합니다. 4.6 이하에서 마이그레이션하는 경우 재측정하세요. 4.7/4.8에서 마이그레이션하는 경우 동등성을 기대하세요.
캐싱 동작: 계약은 변경되지 않았습니다
각 모델에서 동일한 캐시 없음 / 콜드 쓰기 / 웜 읽기 시퀀스를 실행했습니다. 할인 구조는 처음부터 끝까지 동일합니다 — Fable 5는 cache_control을 준수하며 동일한 사용 필드(cache_creation_input_tokens, cache_read_input_tokens, ephemeral_5m / ephemeral_1h 버킷)를 보고합니다.
| 모델 | 5분 캐시 쓰기 | 1시간 캐시 쓰기 | 웜 읽기 |
|---|---|---|---|
claude-opus-4-6 | 1.25x | 2.00x | 캐시 없음의 약 9% |
claude-opus-4-8 | 1.25x | 2.00x | 캐시 없음의 약 6% |
claude-fable-5 | 1.24x | 1.99x | 캐시 없음의 약 6% |
세 모델 모두에서 두 가지 불변 조건이 유지됩니다:
- 쓰기 프리미엄 ≈ 1.25x (5분), ≈ 2x (1시간). 첫 번째(콜드) 호출은 5분 항목을 채우기 위해 캐시 없음 가격의 약 1.25x, 또는 1시간 항목의 경우 약 2x가 소요됩니다. 손익분기점은 한 번의 히트입니다.
- 읽기 할인 ≈ 90% 이상. Fable 5에서 웜 캐시 읽기는 캐시 없음 호출의 약 6% — 약 94% 할인으로, Anthropic의 문서화된 약 90% 캐시 읽기 경제성과 일치합니다(약간 더 좋음). 읽기는 TTL에 관계없이 깊은 할인을 유지합니다.
비율은 라인 전체에서 동일합니다. Opus 4.7 → 4.8 단계와 마찬가지로, Fable 5에서 더 높은 절대적 요금은 가격 및 토큰 문제이지 캐시 경제성 문제가 아닙니다 — 다음에서 다룹니다.
TTL 동작: 두 창 모두 지원됩니다
Fable 5는 나머지 라인과 동일한 두 가지 TTL을 지원합니다: 5분 슬라이딩 기본값과 옵트인 1시간 창. 각 TTL을 호출당 고유한 접두사로 격리하여(오래된 항목이 결과를 오염시키지 않도록) 사용 객체가 올바른 버킷을 보고하는지 확인했습니다 — cache_creation.ephemeral_5m_input_tokens 또는 ephemeral_1h_input_tokens.
# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}
1시간 쓰기는 캐시 없음의 약 2x(5분 쓰기의 약 1.25x 대비)가 소요되며, 읽기는 TTL에 관계없이 깊은 할인을 유지합니다 — Opus 4.6/4.8과 동일합니다. Opus에서 라이브 채팅에는 5m, 사람이 개입하는 일시 정지가 있는 에이전트에는 1h를 선택했다면, Fable 5에서도 그 선택을 유지하세요.
비용 이야기: 2x 가격 x 1.45x 토큰
여기가 Fable 5가 실제로 다른 부분입니다. 두 가지 요소가 요금을 올리며, 이들은 곱해집니다.
1. 정가는 Opus 티어의 2배입니다.
| 모델 | 입력 ($/M) | 출력 ($/M) | 캐시 읽기 ($/M) |
|---|---|---|---|
claude-opus-4-6 / 4-8 | 5 | 25 | 0.5 |
claude-fable-5 | 10 | 50 | 1 |
2. 동일한 텍스트가 4.6보다 약 45% 더 많은 토큰입니다 (위의 토크나이저 변경).
이를 곱하면 동일한 영어 프롬프트의 비용이 상당히 더 높아집니다. 각 모델에서 동일한 시스템 프롬프트를 기준으로 측정한 결과(게이트웨이 usage.cost, 동일한 단일 실행):
| 비교 | 토큰 비율 | 가격 비율 | 동일 프롬프트 비용 비율 (측정값) |
|---|---|---|---|
| Fable 5 vs Opus 4.8 | 1.00x | 2.0x | 2.0x |
| Fable 5 vs Opus 4.6 | 1.45x | 2.0x | 2.9x |
따라서 Opus 4.8(동일한 토크나이저) 대비 Fable 5는 순수한 2x — 순수 가격 프리미엄입니다. Opus 4.6 대비로는 토크나이저 변경이 가격 변경과 복합되어 동일한 프롬프트에 대해 약 2.9x의 비용이 됩니다. 캐시 할인은 변경되지 않았지만, 할인이 적용되는 절대적 기준이 4.6보다 약 2.9x 더 큽니다. 4.6을 기준으로 호출당 예산을 책정했다면 다시 계산하세요.
실질적인 결과: 1,024 토큰 캐시 적격 기준을 다시 확인하세요. Anthropic은 최소 크기 이상의 접두사만 캐시합니다. 4.6에서 기준 바로 아래에 있던 프롬프트(구 토크나이저 토큰 기준)가 Fable 5에서는 기준을 넘을