엔지니어링 블로그

LLM API 게이트웨이를 구축하며 마주친 실제 엔지니어링 문제들.

GLM 5.2 Reasoning Effort: 비용을 20배 줄이는 설정, 직접 측정해 봤다

GLM 5.2 Reasoning Effort: 비용을 20배 줄이는 설정, 직접 측정해 봤다

2026년 6월 24일 · glm · coding · llm-gateway · cost · reasoning

같은 코딩 답변도 reasoning effort를 제대로 설정하면 $0.0031, GLM 5.2의 무제한 기본값에서는 $0.062가 든다. 비용은 20배 낮고 속도는 30배 빠르다. 작업별 설정 방법을 알아본다.

Claude Fable 5는 ZDR에서 사용할 수 없다: 30일 보관 의무

Claude Fable 5는 ZDR에서 사용할 수 없다: 30일 보관 의무

2026년 6월 12일 · claude-fable-5 · data-retention · compliance

ZDR 조직에서 claude-fable-5를 호출하면 400 오류가 발생한다. Claude API, Bedrock, Vertex, Foundry 모두 예외가 없다. HIPAA/COPPA에 미치는 영향과 라우팅 해결책을 정리했다.

LLM 프롬프트 캐싱 완벽 가이드 2026: 입력 비용 50-90% 절감

LLM 프롬프트 캐싱 완벽 가이드 2026: 입력 비용 50-90% 절감

2026년 5월 26일 · prompt-cache · series-overview · llm-architecture

Claude, GPT, Gemini, DeepSeek의 프롬프트 캐싱 동작 원리와 입력 비용 50-90%, TTFT 3-10배 개선 방법. 아키텍처, 제공업체 비교, Python 코드까지 다룹니다.