이미지 생성 비용을 실제로 결정하는 요소
텍스트 LLM용으로 구축된 게이트웨이에 이미지 생성 기능을 추가하고, 모델·해상도·이미지 수·품질이라는 네 가지 변수에 걸쳐 비용을 결정하는 요인을 측정했습니다. 가장 큰 영향을 미치는 요소는 품질(quality)로, 대부분의 이미지 API가 노출하고 있지만 대부분의 호출자가 기본값으로 그냥 두는 파라미터입니다. 해상도, 프롬프트 캐싱, 배치 처리는 사람들이 기대하는 것보다 훨씬 영향이 적습니다.
이미지 모델의 차이점
이미지 모델은 서로 간단히 교체할 수 있는 존재가 아닙니다. 여러 축에서 차이를 보이며, 그 중 가격과 관련된 것은 과금 방식 하나뿐입니다. 현재 제공 중인 모델 목록을 한눈에 살펴보면 다음과 같습니다:
| 계열 | 과금 방식 | quality 설정 | 배치 n>1 | 해상도 |
|---|---|---|---|---|
gpt-image (OpenAI) | 토큰당 | ✓ low/med/high | ✓ | 최대 약 2K |
gemini-image (Google) | 토큰당 | ✗ | ✗ 1회/호출 | 1K (gemini-3: 4K까지) |
qwen-image / wan2.7 (Alibaba) | 이미지당 정액 | ✗ | ✓ | 512²–2048² |
seedream (BytePlus) | 이미지당 정액 | ✗ | ✗ 1회/호출 | ≥1920² (4.5/5.0) |
한 모델이 다른 모델과 동일하게 동작한다고 가정할 때 문제가 되는 축들:
- 과금 방식. 토큰당 과금(
gpt-image,gemini) 또는 이미지당 정액 과금(qwen,wan,seedream). 이 축이 청구서를 결정하며, 다음 섹션의 주제입니다. quality설정.gpt-image에만 존재합니다(low/medium/high). Gemini는 모델 티어(flash에서pro) 또는image_size로 품질을 조정하고, 정액 모델에는 이런 다이얼이 없습니다. 이 설정 하나가 비용을 약 36배까지 변동시키므로 주요 비용 레버이며, 아래에서 자세히 다룹니다.- 배치(
n>1)는 범용적이지 않습니다.gpt-image,qwen,wan은 한 번의 호출로 여러 이미지를 반환합니다. 모든 Gemini와 Seedream 이미지 모델은 호출당 이미지 1장입니다:n=2를 요청하면400오류가 반환되므로, N번의 요청을 직접 발행하고 배치를 직접 조율해야 합니다. - 해상도 제한은 양방향으로 작용합니다.
gemini-2.5-flash-image는 1K(1 MP)로 제한되는 반면,gemini-3는 2K/4K에 도달합니다(1K에서 4K로 가면 비용이 대략 두 배가 됩니다). Seedream 4.5/5.0은 약 1920² 이상을 강제하며 그보다 작은 크기는 거부합니다.qwen-image는 512²–2048² 범위 내에서 동작합니다. 높은 해상도가 항상 가능한 것도 아니고, 비용 절감을 위해 해상도를 낮추는 것이 항상 허용되는 것도 아닙니다. - 제어 설정과 이미지-투-이미지 기능이 다릅니다.
seed,negative_prompt,guidance_scale을 지원하는 모델은 일부에 불과하며, 편집 시 참조 이미지 한도는 3장(gemini-2.5)에서 16장(gpt-image)까지 다양합니다.
quality 설정에는 직관적이지 않은 특성이 하나 있습니다. gpt-image의 경우, 출력 토큰은 반환되는 파일의 크기가 아닌 과금 단위입니다. OpenAI는 공개된 (quality × size) 요율표에 따라 토큰 수를 할당합니다(gpt-image-1의 1024²에서 low/medium/high에 대해 각각 272/1,056/4,160 토큰). 따라서 토큰 수는 반환된 바이트에서 도출되는 것이 아니라 quality에 의해 결정됩니다. 실제로 확인해 보니, 동일한 프롬프트를 1024²로 세 가지 티어 모두에서 실행했을 때 파일 크기가 거의 동일한(약 0.9 MB) 1024×1024 PNG가 생성되었지만, 각각 196, 1,756, 7,024 토큰이 과금되었습니다. 동일한 해상도, 동일한 바이트 크기인데 비용은 36배 차이가 납니다. 픽셀이 아닌 렌더링 노력에 대해 비용을 지불하는 것이므로, 출력물을 눈으로 확인하는 것이 아니라 usage를 읽어야 합니다.
이 모델들 중 어느 것도 갖추지 못한 기능이 하나 있는데, 바로 프롬프트 캐싱입니다. 이는 사람들이 비용 절감을 위해 가장 먼저 떠올리는 방법입니다. 이미지 생성은 상태가 없습니다(stateless): 재사용할 대화나 KV 상태가 없고, usage 객체에는 캐시 필드가 없으며, (아래에서 측정한 것처럼) 배치 처리도 프롬프트를 공유하지 않습니다. 캐싱은 채팅 기능이지 이미지 기능이 아니므로, 이미지 비용 절감에 대한 일반적인 가정은 배제됩니다.
우리가 직접 측정했습니다
동일한 이커머스 스타일의 상품 프롬프트를 사용해 게이트웨이를 통해 실제 생성을 수행하고, 반환된 usage와 각 모델의 공개 요금을 기준으로 비용을 산출했습니다. 다섯 가지 발견, 각각 별도의 스윕에서 도출했습니다.
1. 비용의 핵심은 이미지이지, 프롬프트가 아닙니다. 텍스트-투-이미지(프롬프트 입력, 이미지 출력)에서 청구액의 97~100%는 출력 토큰입니다. 1024² gpt-image-2 생성은 입력 21토큰, 출력 196토큰(약 $0.0001 + $0.0059)이며, gemini-2.5-flash-image는 입력 10토큰을 사용합니다. 작성하는 프롬프트는 반올림 오차 수준이지만, 그건 텍스트이기 때문입니다. 대신 이미지를 입력으로 사용하면(이미지-투-이미지, 예: “이 머그컵을 파란색으로 만들어줘”) 입력 토큰화 규모가 크게 달라집니다:
| 모델 | t2i 입력 | i2i 입력 (참조 1개) | 출력 |
|---|---|---|---|
gpt-image-2 (low) | 21 tok | 1,043 tok | 196 tok |
gemini-2.5-flash-image | 10 tok | 1,297 tok | 1,290 tok |
입력이 50~130배 급증하며, 선형적으로 확장됩니다. gpt-image-2에서 참조 이미지를 추가할 때마다 약 1,025토큰이 추가됩니다(1개, 2개, 3개 참조 시 각각 1,043, 2,068, 3,093으로 측정됨). low 품질에서는 입력 토큰이 생성된 출력 토큰보다 5배 많습니다. 어느 방향이든 원칙은 동일합니다. 이미지를 생성하든 제공하든, 비용의 핵심은 이미지이며 프롬프트는 결코 그렇지 않습니다. 이 글의 나머지 부분은 텍스트-투-이미지에 집중하며, 이미지-투-이미지 경제학은 별도의 후속 글에서 다룰 예정입니다.
2. 모델 선택은 6배의 레버입니다. 동일한 1024² 요청, 기본 품질 기준:
| 모델 | 청구 방식 | 이미지당 비용 |
|---|---|---|
gpt-image-2 | 토큰 · quality 조절 | $0.0060 |
gpt-image-1-mini | 토큰 · quality 조절 | $0.0085 |
seedream-4-0 | 요청당 정액 | $0.030 |
qwen-image-2.0 | 요청당 정액 | $0.035 |
gemini-2.5-flash-image | 토큰 · quality 조절 없음 | $0.0387 |
가장 저렴한 경로와 가장 비싼 경로 사이에 6.4배의 차이가 있으며, 이는 전적으로 각 모델이 방출하는 출력 토큰 수에 의해 결정됩니다.
3. 해상도는 비용에 거의 영향을 미치지 않습니다. gpt-image-2를 1024²에서 2048²로 스윕했을 때 이미지당 비용은 거의 변하지 않았습니다($0.0060에서 $0.0121). 출력 토큰은 픽셀에 비례하지 않습니다. gemini-2.5-flash-image는 요청한 크기와 무관하게 동일한 1,290토큰을 반환했는데, 이는 1K 전용 모델이며 size는 종횡비만 변경하기 때문입니다. (gemini-3 이미지 티어는 image_size를 반영하여 1K에서 4K로 갈 때 비용이 약 두 배가 되지만, 여기서 비용을 측정한 모델인 2.5-flash-image는 그렇지 않습니다.) 요청당 정액 모델은 정의상 해상도와 무관합니다. 지금까지는 토큰당 과금 모델이 이기기 어려워 보입니다.
4. 품질이 교차점을 만듭니다. gpt-image-2를 품질 티어별로 스윕:
| quality | 1024² | 2048² |
|---|---|---|
| low | $0.0060 (196 tok) | $0.0121 (397 tok) |
| medium | $0.053 (1,756 tok) | $0.107 (3,568 tok) |
| high | $0.211 (7,024 tok) | $0.428 (14,272 tok) |
출력 토큰은 low에서 medium으로 약 9배, low에서 high로 약 36배 증가합니다. low 품질에서는 토큰당 과금 모델이 가장 저렴한 옵션이지만, medium 또는 high에서는 정액 이미지당 가격($0.03~0.035)을 초과합니다. 교차점은 산술적으로 약 1,000 출력 토큰($0.03 ÷ $30/M) 부근에 위치합니다. low는 그 아래이고, medium은 그 위입니다. 이는 우리의 이전 결론을 수정하기도 합니다. “토큰당 과금이 항상 가장 저렴하다”는 것은 기본 low 품질로 테스트한 결과의 산물이었습니다.

동일한 프롬프트, gpt-image-2, 1024². low / medium / high는 각각 196 / 1,756 / 7,024 출력 토큰, 즉 $0.006 / $0.053 / $0.215로 청구됩니다. 동일한 해상도에서 36배의 차이입니다. 이런 깔끔한 상품 사진의 경우 세 가지를 구분하기 어려우므로, 가장 저렴한 티어로도 충분한 경우가 많습니다. quality는 기본값을 high로 두지 말고 작업에 맞게 설정하세요.
5. 여러 이미지에 프롬프트를 공유할 수 없습니다. 한 번의 호출로 n개의 이미지를 생성해도 프롬프트 비용이 분산되지 않습니다. gpt-image-2는 N번 청구합니다. 입력 토큰은 n=4일 때 28에서 112로 증가했고, 긴 브랜드 프롬프트는 499에서 1,996으로 늘었습니다. 이미지당 비용은 n=1과 n=4에서 동일했습니다. 캐싱도 없으므로, 이미지 생성에는 프롬프트 비용 공유 메커니즘이 없습니다. 출력 이미지당 비용을 지불하며, 프롬프트는 매번 다시 청구됩니다.
결정 규칙
텍스트-이미지 변환에서는 사람들이 흔히 가정하는 요소가 아니라 품질이 핵심입니다:
- 낮음 / 초안 / 썸네일 품질: 품질 연동 토큰 과금 모델(
gpt-image, 약 $0.006–0.012). 약 2K 이하 해상도에서 가장 저렴합니다. - 중간 / 높은 품질: 요청당 정액 과금(
seedream/qwen, $0.03–0.035). 토큰 기반 요금은 급격히 불어나고(측정 범위에서 $0.05–0.43), 정액 과금이 더 저렴하면서 품질에 무관합니다. gemini(기본 1K 기준 약 $0.039)는 비용 최적 선택이 되는 경우가 드뭅니다. 낮은 품질에서는gpt-image에, 중간 및 높은 품질에서는 요청당 정액 모델에 밀립니다.quality조절 기능이 없으며, 출력 품질을 높이려면 Pro 티어나 더 높은image_size를 선택해야 하지만 가격 경쟁력은 없습니다.- 해상도 변경은 동일 품질 티어 내에서 비용을 약 2배 움직이는 수준으로, 선택을 뒤집기에는 부족합니다. 선택을 뒤집는 것은 품질입니다.
n>1, 캐싱, 배치 처리는 이미지당 비용을 절감하지 못합니다. 공유할 수 있는 것이 없습니다.- 이미지-이미지 변환: 기본적으로 이미지당 정액 과금을 선택하세요. 참조 이미지는 입력이며, 토큰 기반 모델만 이에 추가 요금을 부과합니다(각 약 1,025 토큰). 정액 모델은 무료로 포함합니다. 편집 작업에서는
seedream/qwen이 대체로 유리합니다.gpt-image는 참조 이미지가 적은 낮은 품질 편집에서만 더 저렴하며(약 5개 정도에서 정액 가격과 교차), 품질이나 참조 이미지 수가 늘어나면 불리해집니다.
이커머스가 가장 명확한 예시입니다. 카탈로그의 모든 상품에 동일한 긴 브랜드 프롬프트를 보내 제품 사진을 생성하면서, 반복되는 프롬프트를 캐싱하면 비용이 절감될 것이라고 가정한다고 해봅시다. 이는 두 가지 이유로 실패합니다: 프롬프트는 애초에 비용의 주요 원인이 아니며(이미지가 비용의 핵심), 생성 작업에는 캐싱 자체가 적용되지 않습니다. 실제 제품 이미지는 중간 품질 이상이므로, 올바른 선택은 이미지당 정액 과금 모델입니다. 이는 프롬프트가 얼마나 반복적이든 관계없이 더 저렴하고 예측 가능합니다.
앞서 언급한 기능 제약 조건이 선택을 뒤집을 수도 있습니다: 호출당 단일 이미지 제한, 해상도 최솟값 및 최댓값, 데이터 보관 위치 제한, 그리고 모델이 노출하는 파라미터(seed, negative_prompt, guidance_scale). 비용을 기준으로 선택한 뒤, 기능 요건을 충족하는지 확인하세요.
이 수치를 신뢰할 수 있는 이유
이 수치들은 추정치가 아니라 각 벤더의 공시 요금에 대한 실제 usage 데이터에서 나온 것입니다. 당사 게이트웨이의 이미지 과금은 세션리스 방식으로 동작합니다: 2xx 응답 시에만 정산되며(생성 실패 시 요금 미청구), 지출 전에 최악의 경우 비용을 사전 검증하고, usage가 누락된 응답은 $0으로 묵인하지 않고 상한선 기준으로 청구합니다. 이 원칙은 당사가 모든 곳에 적용하는 것과 동일합니다: 벤더가 제공하는 수치가 아닌 실제 비용을 신뢰하는 것. 이는 게이트웨이가 캐시에 대해 거짓말하는지 감사하는 데 사용한 방법과 같습니다.
결론
이미지 생성은 그저 또 하나의 엔드포인트처럼 보이지만, 과금 단위가 달라졌습니다. 텍스트-이미지 변환에서 핵심 변수는 프롬프트(캐싱 없음, 배치 공유 없음)도 해상도도 아닙니다. 바로 품질입니다: gpt-image는 낮은 품질에서 가장 저렴하고, 이미지당 정액 과금(seedream / qwen)은 중간 및 높은 품질에서 유리하며, 교차점은 출력 토큰 약 1,000개 근처입니다. 품질을 의도적으로 설정하고, 그에 맞는 모델을 선택한 뒤 비용을 확인하세요. 생성에서 편집으로, 즉 참조 이미지를 입력하는 방식으로 전환할 때는 입력 이미지가 비용의 주요 원인이 되므로 계산을 다시 해야 합니다.
FAQ
프롬프트 캐싱이 이미지 생성 비용을 줄여주나요?
아니요. 생성은 무상태(stateless)로 동작합니다. usage 객체에는 캐시 관련 필드가 없으며, 배치 처리 시에도 이미지마다 프롬프트 비용이 다시 청구됩니다. 비용은 출력 이미지에서 발생하는 것이지, 텍스트에서 발생하는 것이 아닙니다.
토큰당 과금과 이미지당 과금 중 어느 쪽이 더 저렴한가요?
품질에 따라 다릅니다. 낮은 품질이나 초안(draft) 품질의 경우, gpt-image처럼 quality 옵션을 제공하는 모델(약 $0.006–0.012)이 유리합니다. 중간 또는 높은 품질의 경우, seedream/qwen($0.03–0.035)처럼 이미지당 정액 과금 방식이 유리한데, 토큰당 과금 방식은 비용이 급격히 늘어나기 때문입니다. 이미지-투-이미지(image-to-image)의 경우에는 정액 과금 쪽이 더욱 유리합니다. 정액 과금 모델은 참조 이미지를 무료로 포함하는 반면, 토큰당 과금 방식은 참조 이미지 하나당 약 1,025 토큰을 추가로 청구하기 때문입니다.
출처
- OpenAI: Image generation API
- OpenAI: gpt-image 토큰당 가격 책정
- Google: Gemini API 가격 책정 (이미지 출력 토큰)
- OpenAI: 프롬프트 캐싱 (이미지 생성에 적용되지 않는 이유)
모두 2026-06-19에 확인하였습니다. 금융 조언이 아니며, 실제 적용 전에 현재 가격을 반드시 확인하시기 바랍니다.