엔지니어링 블로그
LLM API 게이트웨이를 구축하며 마주친 실제 엔지니어링 문제들.
-
Claude Fable 5: 캐싱, 토크나이저 & Opus 4.6 대비 비용
Claude Fable 5가 Synthorai에서 제공됩니다. 프롬프트 캐싱, TTL, 토크나이제이션, Opus 4.6/4.8 대비 비용을 측정했습니다: 동일한 캐시 계약, 새 토크나이저, 약 2.9배의 요금.
-
Provider Drift: 기본 라우팅이 LLM 비용을 부풀리는 방식
멀티 프로바이더 게이트웨이의 기본 라우팅에서는 동일한 요청이 서로 다른 캐시를 가진 업스트림으로 흩어집니다. 적중률은 폭락하고 청구서는 올라갑니다.
-
당신의 LLM 게이트웨이는 캐시에 대해 거짓말하는가? 5분 감사
게이트웨이는 캐시 히트를 보고하면서도 전액으로 청구할 수 있다. 스크립트 하나로 자동 캐시(DeepSeek)와 마커 기반 캐시(Claude)를 5분 만에 감사한다.
-
Synthorai의 Claude Opus 4.8: 캐싱과 TTL을 4.7/4.6과 비교
Claude Opus 4.8이 Synthorai에서 사용 가능합니다. Opus 4.7/4.6 대비 프롬프트 캐싱 및 TTL 동작을 실측 — 무엇이 그대로 이어지는지, 그리고 다시 확인해야 할 토크나이저 변화.
-
LLM 프롬프트 캐싱: 2026 완벽 가이드
LLM 프롬프트 캐싱에 관한 4부작 시리즈: KV 캐시 아키텍처, 프로바이더 비교, 동작하는 Python 튜토리얼, 그리고 사용 사례별 최적 모델 선택 결정 매트릭스.
-
LLM 프롬프트 캐싱 #4: 챗봇·RAG·에이전트를 위한 최적 모델
LLM 워크로드(챗봇, RAG API, AI 에이전트)를 적절한 모델과 캐싱 전략에 매칭하는 의사결정 매트릭스. 2026년 실제 가격, 시나리오별 비용 계산.
-
LLM 프롬프트 캐싱 #3: 동작하는 Python 튜토리얼
Synthorai의 OpenAI 호환 게이트웨이를 통해 Claude, GPT-5, Gemini 2.5, DeepSeek-v4, Qwen3의 프롬프트 캐시 절감 효과를 실측. 실제 usage.cost와 TTFT.
-
LLM 프롬프트 캐싱 #2: Claude, GPT, Gemini, DeepSeek 비교
Anthropic Claude, OpenAI GPT-5, Gemini 2.5, DeepSeek-v4, Qwen3는 프롬프트 캐싱을 다섯 가지 서로 다른 형태로 제공한다 — 2026년 실측 기반 기능 비교.
-
LLM 프롬프트 캐싱 #1: KV 캐시와 TTL의 작동 원리
LLM 프롬프트 캐싱이 실제로 어떻게 작동하는가: K/V 재사용 뒤에 있는 Transformer 어텐션 수학, TTL을 결정하는 메모리-연산 트레이드오프, 그리고 비용과 TTFT를 모두 줄여 주는 이유.