Claude Fable 5: 캐싱, 토크나이저 & Opus 4.6 대비 비용

목차
  1. 가용성
  2. 핵심: Fable 5는 새 토크나이저를 사용합니다
  3. 캐싱 동작: 계약은 변경되지 않았습니다
  4. TTL 동작: 두 창 모두 지원됩니다
  5. 비용 이야기: 2x 가격 x 1.45x 토큰

claude-fable-5가 이제 Synthorai 게이트웨이에서 사용 가능합니다. Claude 라인에서 캐싱을 사용하고 있다면, 반가운 소식은 캐싱 및 TTL 계약이 그대로 이어진다는 점입니다. 동일한 cache_control 마커, 동일한 5분 및 1시간 TTL, 동일한 쓰기 프리미엄, 동일한 깊은 읽기 할인이 유지됩니다. 캐싱 코드는 문자열 하나만 바꾸면 그대로 이전됩니다.

예산을 고려해야 할 부분은 캐시 메커니즘이 아니라 요금입니다. Fable 5는 Opus 토큰 가격의 2배로 책정되어 있으며, 동일한 영어 텍스트를 Opus 4.6보다 약 45% 더 많은 토큰으로 토크나이즈합니다(4.6 이후 토크나이저를 사용하며, Opus 4.8과 동일합니다). 이 두 배수가 중첩됩니다. 이 포스트에서 모든 수치를 직접 측정했으니 여러분이 따로 측정할 필요가 없습니다.

아래의 모든 수치는 2026-06-10에 https://synthorai.io/(Anthropic 네이티브 /v1/messages)를 대상으로, 안정적인 약 6.6–9.6K 토큰 영어 시스템 프롬프트, 소규모 max_tokens, 단일 순차 실행 조건에서 측정되었습니다. 비용 수치는 게이트웨이 usage.cost 필드에서 읽어왔으며, 비율(토큰 수, 쓰기 프리미엄, 읽기 할인, 모델 간 비용)이 이식 가능한 부분입니다 — 절대적인 달러 금액은 프롬프트에 따라 달라집니다. 수치를 인용하기 전에 자신의 프롬프트로 직접 재현해 보세요.


가용성

import os
from anthropic import Anthropic

anth = Anthropic(
    api_key=os.environ["SYNTHORAI_KEY"],
    base_url="https://synthorai.io/",   # SDK appends /v1/messages
)

msg = anth.messages.create(
    model="claude-fable-5",             # the only line that changes
    max_tokens=512,
    system=[
        {"type": "text", "text": SYSTEM_PROMPT,
         "cache_control": {"type": "ephemeral"}},
    ],
    messages=[{"role": "user", "content": question}],
)
print(msg.usage)   # input_tokens, cache_creation_input_tokens, cache_read_input_tokens, cost

claude-opus-4-6claude-fable-5로 교체하면 캐싱 경로에서 변경할 것이 없습니다. Fable 5는 1M 토큰 컨텍스트 창을 가진 Anthropic 네이티브 모델입니다. 동작 관련 참고 사항: 이 모델은 추론 모델이며 기본적으로 thinking 토큰을 출력합니다 — 간단한 “reply OK” 요청에서도 우리 실행에서 output_tokens_details.thinking_tokens > 0이 반환되었으며, Opus 4.6/4.8은 0을 반환했습니다. 출력 토큰 예산을 그에 맞게 책정하세요. cache_control의 메커니즘은 캐싱 튜토리얼에서 다루며, 캐시가 존재하는 이유에 대한 아키텍처는 시리즈 1부에서 확인할 수 있습니다.


핵심: Fable 5는 새 토크나이저를 사용합니다

Opus 라인의 토큰 수는 4.7 세대에서 증가했습니다. 4.6에서 약 6.6K 토큰으로 계산되던 동일한 영어 텍스트가 4.8에서는 약 9.6K로 계산됩니다. Fable 5는 새로운 쪽에 해당합니다 — 동일한 텍스트가 Opus 4.8과 정확히 동일한 토큰 수를 보고합니다.

모델입력 토큰 (동일 텍스트)토크나이저 세대
claude-opus-4-66,614pre-4.7
claude-opus-4-89,619post-4.7
claude-fable-59,619post-4.7 (4.8과 동일)

동일한 시스템 프롬프트가 Fable 5에서 Opus 4.6보다 약 45% 더 많은 토큰입니다(9,619 / 6,614 = 1.45). 이것이 마이그레이션 전에 가장 중요하게 내면화해야 할 수치입니다. 비용, 1,024 토큰 캐시 적격 기준, 호출당 예산 등 모든 하위 수치가 토큰 단위로 계산되기 때문입니다.

이것은 측정된 관찰을 설명하는 것입니다 — 동일한 텍스트, Fable 5와 Opus 4.8에서 동일한 토큰 수, Opus 4.6보다 약 45% 높음 — 4.7 세대에 적용된 토크나이저/어휘 업데이트와 가장 일치합니다. 4.6 이하에서 마이그레이션하는 경우 재측정하세요. 4.7/4.8에서 마이그레이션하는 경우 동등성을 기대하세요.


캐싱 동작: 계약은 변경되지 않았습니다

각 모델에서 동일한 캐시 없음 / 콜드 쓰기 / 웜 읽기 시퀀스를 실행했습니다. 할인 구조는 처음부터 끝까지 동일합니다 — Fable 5는 cache_control을 준수하며 동일한 사용 필드(cache_creation_input_tokens, cache_read_input_tokens, ephemeral_5m / ephemeral_1h 버킷)를 보고합니다.

모델5분 캐시 쓰기1시간 캐시 쓰기웜 읽기
claude-opus-4-61.25x2.00x캐시 없음의 약 9%
claude-opus-4-81.25x2.00x캐시 없음의 약 6%
claude-fable-51.24x1.99x캐시 없음의 약 6%

세 모델 모두에서 두 가지 불변 조건이 유지됩니다:

  • 쓰기 프리미엄 ≈ 1.25x (5분), ≈ 2x (1시간). 첫 번째(콜드) 호출은 5분 항목을 채우기 위해 캐시 없음 가격의 약 1.25x, 또는 1시간 항목의 경우 약 2x가 소요됩니다. 손익분기점은 한 번의 히트입니다.
  • 읽기 할인 ≈ 90% 이상. Fable 5에서 웜 캐시 읽기는 캐시 없음 호출의 약 6% — 약 94% 할인으로, Anthropic의 문서화된 약 90% 캐시 읽기 경제성과 일치합니다(약간 더 좋음). 읽기는 TTL에 관계없이 깊은 할인을 유지합니다.

비율은 라인 전체에서 동일합니다. Opus 4.7 → 4.8 단계와 마찬가지로, Fable 5에서 더 높은 절대적 요금은 가격 및 토큰 문제이지 캐시 경제성 문제가 아닙니다 — 다음에서 다룹니다.


TTL 동작: 두 창 모두 지원됩니다

Fable 5는 나머지 라인과 동일한 두 가지 TTL을 지원합니다: 5분 슬라이딩 기본값과 옵트인 1시간 창. 각 TTL을 호출당 고유한 접두사로 격리하여(오래된 항목이 결과를 오염시키지 않도록) 사용 객체가 올바른 버킷을 보고하는지 확인했습니다 — cache_creation.ephemeral_5m_input_tokens 또는 ephemeral_1h_input_tokens.

# 1-hour TTL — same marker syntax on Fable 5 as on the Opus line
"cache_control": {"type": "ephemeral", "ttl": "1h"}

1시간 쓰기는 캐시 없음의 약 2x(5분 쓰기의 약 1.25x 대비)가 소요되며, 읽기는 TTL에 관계없이 깊은 할인을 유지합니다 — Opus 4.6/4.8과 동일합니다. Opus에서 라이브 채팅에는 5m, 사람이 개입하는 일시 정지가 있는 에이전트에는 1h를 선택했다면, Fable 5에서도 그 선택을 유지하세요.


비용 이야기: 2x 가격 x 1.45x 토큰

여기가 Fable 5가 실제로 다른 부분입니다. 두 가지 요소가 요금을 올리며, 이들은 곱해집니다.

1. 정가는 Opus 티어의 2배입니다.

모델입력 ($/M)출력 ($/M)캐시 읽기 ($/M)
claude-opus-4-6 / 4-85250.5
claude-fable-510501

2. 동일한 텍스트가 4.6보다 약 45% 더 많은 토큰입니다 (위의 토크나이저 변경).

이를 곱하면 동일한 영어 프롬프트의 비용이 상당히 더 높아집니다. 각 모델에서 동일한 시스템 프롬프트를 기준으로 측정한 결과(게이트웨이 usage.cost, 동일한 단일 실행):

비교토큰 비율가격 비율동일 프롬프트 비용 비율 (측정값)
Fable 5 vs Opus 4.81.00x2.0x2.0x
Fable 5 vs Opus 4.61.45x2.0x2.9x

따라서 Opus 4.8(동일한 토크나이저) 대비 Fable 5는 순수한 2x — 순수 가격 프리미엄입니다. Opus 4.6 대비로는 토크나이저 변경이 가격 변경과 복합되어 동일한 프롬프트에 대해 약 2.9x의 비용이 됩니다. 캐시 할인은 변경되지 않았지만, 할인이 적용되는 절대적 기준이 4.6보다 약 2.9x 더 큽니다. 4.6을 기준으로 호출당 예산을 책정했다면 다시 계산하세요.

실질적인 결과: 1,024 토큰 캐시 적격 기준을 다시 확인하세요. Anthropic은 최소 크기 이상의 접두사만 캐시합니다. 4.6에서 기준 바로 아래에 있던 프롬프트(구 토크나이저 토큰 기준)가 Fable 5에서는 기준을 넘을

← 블로그로 돌아가기