Synthorai의 Claude Opus 4.8: 캐싱과 TTL을 4.7/4.6과 비교
목차
claude-opus-4-8이 이제 Synthorai 게이트웨이에서 사용 가능합니다. 이미 Opus 계열에서 프롬프트 캐싱을 운영하고 있다면, 헤드라인은 안심되는 동시에 다소 따분합니다. 캐싱이나 TTL 계약은 4.7이나 4.6에서 아무것도 바뀌지 않았습니다. 동일한 cache_control 마커, 동일한 5분 및 1시간 TTL, 동일한 읽기 할인, 동일한 쓰기 프리미엄. 여러분의 캐싱 코드는 그대로 가져다 쓸 수 있습니다.
딱 한 가지 바뀐 것이 있습니다 — 그것도 4.8이 아니라 4.7 시점에 바뀌었고 — 토큰 예산에 영향을 줍니다. 이 글은 여러분이 직접 하지 않아도 되도록 그것을 측정했습니다.
아래의 모든 수치는 2026-05-29에
https://synthorai.io/(Anthropic 네이티브/v1/messages)에 대해, 약 8K자의 영어 시스템 프롬프트, 작은max_tokens, 단일 순차 실행으로 측정한 것입니다. 인용하기 전에 여러분 자신의 프롬프트로 재현해 보세요.
사용 가능 여부
import os
from anthropic import Anthropic
anth = Anthropic(
api_key=os.environ["SYNTHORAI_KEY"],
base_url="https://synthorai.io/", # SDK appends /v1/messages
)
msg = anth.messages.create(
model="claude-opus-4-8", # the only line that changes
max_tokens=512,
system=[
{"type": "text", "text": SYSTEM_PROMPT,
"cache_control": {"type": "ephemeral"}},
],
messages=[{"role": "user", "content": question}],
)
print(msg.usage) # cache_creation_input_tokens, cache_read_input_tokens, cost
claude-opus-4-7 → claude-opus-4-8로 바꾸면 캐싱 경로의 나머지는 무엇 하나 옮길 필요가 없습니다. cache_control 뒤의 메커니즘은 캐싱 튜토리얼에서 다룹니다. 캐시가 왜 존재하는지에 대한 아키텍처는 시리즈 1부에 있습니다.
캐싱 동작: 4.7/4.6과 동일
최근 Opus 계열에 대해 동일한 캐시 쓰기 / 캐시 읽기 / 캐시 없음 시퀀스를 실행했습니다. 할인 구조는 처음부터 끝까지 완전히 동일합니다.
| 모델 | 캐시 없음 비용 | 5m 캐시 쓰기 | 캐시 읽기 | 읽기 할인 |
|---|---|---|---|---|
claude-opus-4-5 | $0.0364 | $0.0452 | $0.0041 | 88.8% |
claude-opus-4-6 | $0.0364 | $0.0452 | $0.0041 | 88.7% |
claude-opus-4-7 | $0.0522 | $0.0654 | $0.0059 | 88.7% |
claude-opus-4-8 | $0.0520 | $0.0654 | $0.0059 | 88.6% |
네 가지 버전 모두에서 두 가지 불변량이 성립합니다.
- 읽기 할인 ≈ 89%. 워밍된 캐시 읽기 비용은 캐시 없음 입력 가격의 약 11%입니다. 이는 Anthropic이 문서화한 10% 캐시 읽기 요율로, 바뀌지 않았습니다.
- 쓰기 프리미엄 ≈ 25%. 첫 번째(콜드) 호출은 캐시를 채우기 위해 캐시 없음 가격의 약 1.25배가 듭니다. 한 번 적중하면 손익분기를 넘습니다.
4.7과 4.8의 절대 달러 수치는 4.5/4.6보다 높지만, 곧 보게 되듯이 그것은 토큰 수의 이야기이지 캐시 경제성의 이야기가 아닙니다 — 백분율은 평평합니다.
TTL 동작: 4.7/4.6과 동일
Opus 4.8은 계열의 나머지와 동일한 두 가지 TTL을 따릅니다. 5분 슬라이딩 기본값과 옵트인 1시간 윈도우입니다. 호출마다 고유한 접두사를 사용해 TTL 경로를 분리하고(오래된 캐시 항목이 결과를 오염시키지 않도록), 각 TTL의 쓰기 프리미엄을 측정했습니다.
| 모델 | TTL | 캐시 쓰기 | 쓰기 프리미엄(캐시 없음 대비) |
|---|---|---|---|
claude-opus-4-7 | 5m | $0.0650 | ~1.25× |
claude-opus-4-7 | 1h | $0.1036 | ~2× |
claude-opus-4-8 | 5m | $0.0650 | ~1.25× |
claude-opus-4-8 | 1h | $0.1036 | ~2× |
# 1-hour TTL — same marker syntax on 4.8 as on 4.7/4.6
"cache_control": {"type": "ephemeral", "ttl": "1h"}
usage 객체는 이전과 정확히 동일하게 TTL 버킷을 보고합니다 — cache_creation.ephemeral_5m_input_tokens 또는 ephemeral_1h_input_tokens. 1시간 쓰기는 캐시 없음의 약 2배(5분 쓰기의 약 1.25배에 비해)가 들고, 읽기는 TTL과 무관하게 약 11%로 유지됩니다. 4.7과 동일합니다. 4.7에서 실시간 채팅에 5m, 사람이 개입하는 일시정지가 있는 에이전트에 1h를 골랐다면, 4.8에서도 그 선택을 유지하세요.
첫 토큰까지의 시간: 계열 전반에 걸쳐 평평
스트리밍 호출로 워밍된 읽기의 TTFT를 측정했습니다(게이트웨이 워밍업 후 모델당 5개 샘플, 중앙값 보고). 이 약 8–11K 토큰 프롬프트에서 TTFT는 약 2.2–2.8초 대역에 자리하며 버전별로 실질적인 추세가 없습니다 — 샘플 범위가 겹치므로 차이는 버전 효과가 아니라 지터입니다.
| 모델 | 워밍된 읽기 TTFT(중앙값) | 범위(n=5) |
|---|---|---|
claude-opus-4-5 | 2.72 s | 2.58 – 2.78 s |
claude-opus-4-6 | 2.76 s | 2.65 – 3.01 s |
claude-opus-4-7 | 2.21 s | 1.98 – 2.97 s |
claude-opus-4-8 | 2.47 s | 2.23 – 4.38 s |
분명히 짚고 넘어가야 할 두 가지 주의점:
- 여기서 순위를 읽어내지 마세요. 범위가 크게 겹칩니다(4.8의 높은 값 샘플은 4.38초의 이상치였습니다). 이 프롬프트 크기에서 TTFT는 모델 버전이 아니라 네트워크와 큐잉 지터에 지배됩니다. 약 2.2–2.8초를 네 모델 모두의 워밍 대역으로 취급하세요.
- 캐시의 TTFT 이득은 프롬프트 길이에 따라 커집니다. 약 8–11K 토큰에서는 캐시 적중으로 절약되는 프리필이 작으므로 콜드와 워밍 TTFT가 가깝습니다(워밍업된 게이트웨이에서 둘 다 약 2–3초). 100K+ 토큰에서 프리필이 지배적이 되면 격차가 상당히 벌어집니다 — 그곳에서 워밍된 캐시는 수 초의 대기를 빠른 첫 토큰으로 바꿉니다. 메커니즘은 1부: KV 캐시와 TTL의 작동 원리에 있습니다.
진짜 변화 하나: 토큰화(4.7 이후)
이것이 마이그레이션하기 전에 다시 확인해야 할 점입니다. 동일한 시스템 텍스트가 4.5/4.6보다 4.7/4.8에서 약 43% 더 많은 입력 토큰을 보고합니다.
| 모델 | 입력 토큰(동일 텍스트) | 캐시 없음 비용 |
|---|---|---|
claude-opus-4-5 | ~7,976 | $0.0364 |
claude-opus-4-6 | ~7,977 | $0.0364 |
claude-opus-4-7 | ~11,393 | $0.0522 |
claude-opus-4-8 | ~11,394 | $0.0520 |
토큰 수는 4.7 세대에서 급증하여 4.8로 이어집니다. 비용은 토큰 수를 거의 정확히 따라갑니다. 비용 비율(4.8 / 4.5)은 1.43, 토큰 비율은 1.429입니다. 다시 말해, 계열 전체에 걸쳐 토큰당 가격은 동일하며 — 4.7/4.8의 더 높은 청구액은 전적으로 동일한 텍스트가 더 많은 토큰으로 계산되는 데서 옵니다.
두 가지 실질적 결과:
- 할인이 아니라 절대 비용으로 예산을 다시 잡으세요. 여러분의 캐시 할인은 그대로지만(읽기 약 89%), 동일한 영어 프롬프트의 절대 비용은 4.6보다 4.7/4.8에서 약 43% 더 비쌉니다. 4.6 토큰 수에 맞춰 호출당 예산을 산정했다면 어긋날 것입니다.
- 1,024 토큰 캐시 적격 하한을 다시 확인하세요. Anthropic은 최소 크기 이상의 접두사만 캐싱합니다. 4.6에서 하한 바로 아래에 있던 프롬프트가 4.7/4.8에서는 그것을 넘을 수 있고(토큰이 더 많음), 예전 토크나이저 기준으로 토큰 단위로 크기를 잡은 프롬프트는 재측정이 필요합니다. 일치하지 않을 수 있는 로컬 토크나이저로 추정하지 말고, 항상 라이브 응답에서
cache_creation_input_tokens/cache_read_input_tokens를 읽으세요.
우리가 설명하는 것은 실측 관찰입니다 — 동일 텍스트가 4.7/4.8에서 약 43% 더 많은 입력 토큰을 보고했다 — 이는 4.7 세대에서의 토크나이저/어휘 업데이트와 가장 잘 들어맞습니다. 다만 결론은 근본 원인에 의존하지 않습니다. 마이그레이션할 때 토큰 수를 재측정하세요. 캐시 계산은 토큰 기반이기 때문입니다.
마이그레이션 체크리스트(4.6/4.7 → 4.8)
- ✅ 캐싱 코드는 그대로 이어집니다.
cache_control마커, 중단점 수(최대 4개),ttl: "1h", usage 필드 이름 — 모두 동일합니다. - ✅ TTL 선택은 그대로 이어집니다. 실시간/세션 워크로드에는 5m, 버스트성/일시정지가 있는 에이전트에는 1h.
- ✅ 할인 경제성은 그대로 이어집니다. 읽기 약 89%, 쓰기 약 1.25×(5m), 쓰기 약 2×(1h).
- ⚠️ 토큰 수를 재측정하세요. 4.5/4.6에서 넘어온다면 동일 텍스트에 대해 입력 토큰이 약 40%+ 더 많아질 것으로 예상하세요(이는 4.7에서 일어났습니다). 4.7에서 넘어온다면 동등할 것으로 예상하세요.
- ⚠️ 비용 대시보드를 재검증하세요. 예전 세대의 캐시된 추정치가 아니라 라이브 응답의
usage.cost와*_input_tokens필드를 신뢰하세요.
결론
이미 Opus에서 캐싱하고 있는 엔지니어링 팀에게 claude-opus-4-8은 수월한 종류의 업그레이드입니다. 캐싱과 TTL 표면 전체가 안정적이므로 다시 배울 것도, 다시 작성할 코드도 없습니다. 4.6 이전에서 뛰어넘어 온다면 토크나이저 변화를 예산에 반영하고, 라이브 usage 객체에 대조해 수치를 확인한 뒤, 배포하세요.
전체 캐싱 플레이북 — 프롬프트 구조, 적중률 디버깅, TTL 인식 패턴 — 은 KV 캐시와 TTL의 작동 원리로 시작하는 4부작 시리즈와 작동하는 Python 튜토리얼을 참고하세요.
FAQ
Opus 4.8을 사용하려면 cache_control 코드를 바꿔야 하나요?
아니요. 마커 구문, 중단점 한도, TTL 옵션은 4.7/4.6과 동일합니다. model 필드만 바꾸고 나머지는 그대로 두세요.
캐시 읽기 할인이 4.8에서 바뀌었나요? 아니요. 워밍된 읽기는 캐시 없음 입력 가격의 약 11%(약 89% 할인)이며, 4.5부터 4.8까지 동일하고 Anthropic이 문서화한 요율과 일치합니다.
1시간 TTL 프리미엄이 바뀌었나요? 아니요. 1시간 쓰기는 캐시 없음 입력 가격의 약 2배, 5분 쓰기는 약 1.25배입니다. 읽기는 TTL과 무관하게 약 11%입니다. 4.7과 동일합니다.
왜 같은 프롬프트가 4.6보다 4.8에서 더 비싼가요? 토큰당 가격은 동일합니다 — 프롬프트가 단지 더 많은 토큰으로 계산될 뿐입니다. 우리 측정에서 동일 텍스트가 4.5/4.6에서 약 8.0K 토큰, 4.7/4.8에서 약 11.4K 토큰(약 43% 증가)을 보고했고, 이는 4.7 세대의 토크나이저 변경과 가장 잘 들어맞습니다. 캐시 할인은 바뀌지 않았습니다.
4.8은 4.7의 드롭인 대체품인가요? 캐싱/TTL 표면에서는 그렇습니다 — 토큰 수와 경제성이 이미 4.7 수준에 있었으므로 4.7에서의 마이그레이션은 동등합니다. 우리는 직접 실행하지 않은 능력 벤치마크는 공개하지 않습니다. 품질과 추론에 대한 주장은 Anthropic의 모델 카드를 참고하세요.
검증: 모든 캐싱, TTL, 토큰 수, 비용, TTFT 수치는 2026-05-29에 https://synthorai.io/에 대해 공식 anthropic SDK, 단일 테넌트로 측정했습니다. 비용/토큰 수치는 단일 순차 실행이며, TTFT는 게이트웨이 워밍업 후 모델당 5개 샘플의 중앙값입니다. 할인/프리미엄 비율은 Anthropic 프롬프트 캐싱 문서와 교차 확인했습니다. 여러분의 수치는 프롬프트, 리전, 부하에 따라 달라집니다.