真正影響圖片生成費用的因素
我們在一個為文字 LLM 打造的閘道上新增了圖片生成功能,並針對四個變數測量了成本驅動因素:模型、解析度、圖片數量與品質。其中影響最大的槓桿是品質——這個參數在大多數圖片 API 中都有提供,但大多數呼叫端都沿用預設值。解析度、提示詞快取與批次處理的影響,遠比人們預期的要小。
圖片模型的差異
圖片模型彼此之間並非可以直接替換。它們在多個維度上存在分歧,而其中只有一個(計費方式)與價格有關。目前在用的模型一覽:
| 系列 | 計費方式 | quality 參數 | 批次 n>1 | 解析度 |
|---|---|---|---|---|
gpt-image(OpenAI) | 按權杖 | ✓ low/med/high | ✓ | 最高約 2K |
gemini-image(Google) | 按權杖 | ✗ | ✗ 每次呼叫 1 張 | 1K(gemini-3:最高 4K) |
qwen-image / wan2.7(Alibaba) | 每張圖片固定費用 | ✗ | ✓ | 512²–2048² |
seedream(BytePlus) | 每張圖片固定費用 | ✗ | ✗ 每次呼叫 1 張 | ≥1920²(4.5/5.0) |
若假設某個模型的行為與另一個相同,以下幾個維度會讓你吃虧:
- 計費方式。 按權杖計費(
gpt-image、gemini)或每張圖片固定費用(qwen、wan、seedream)。這個維度決定了你的帳單,也是下一節的主題。 quality參數。 只有gpt-image提供此參數(low/medium/high)。Gemini 透過模型層級(flash到pro)或image_size來改變精細度;固定費用模型則沒有這個調節旋鈕。光是這一個參數就能讓帳單相差約 36 倍,因此它是主要的成本槓桿,詳見下文。- 批次(
n>1)並非通用。gpt-image、qwen和wan可在單次呼叫中回傳多張圖片。所有 Gemini 和 Seedream 圖片模型都是每次呼叫只產生一張圖片:n=2會回傳400錯誤,因此你需要發出 N 個請求並自行協調批次處理。 - 解析度限制是雙向的。
gemini-2.5-flash-image上限為 1K(1 MP),而gemini-3可達 2K/4K(且從 1K 到 4K 費用大約翻倍)。Seedream 4.5/5.0 強制要求最低約 1920²,並拒絕更小的尺寸。qwen-image的範圍在 512²–2048² 之間。更高的解析度不一定可用,而降低解析度來節省費用也不一定被允許。 - 控制參數與圖片轉圖片功能有所不同。 只有部分模型接受
seed、negative_prompt或guidance_scale,而用於編輯的參考圖片數量上限從 3 張(gemini-2.5)到 16 張(gpt-image)不等。
quality 參數有一個不太直觀的特性。對於 gpt-image 而言,輸出權杖是計費單位,而非你所取得檔案的衡量標準。OpenAI 根據已公開的(quality × size)費率表來指定數量(gpt-image-1 在 1024² 下,low / medium / high 分別對應 272 / 1,056 / 4,160 個權杖),因此數量由 quality 決定,而非從回傳的位元組數推算。我們驗證過:在 1024² 下,相同提示詞在三個品質層級產生的 PNG 圖片均為 1024×1024,檔案大小大致相同(約 0.9 MB),但計費分別為 196、1,756 和 7,024 個權杖。相同解析度、相同檔案大小,費用卻相差 36 倍。你付費的是渲染工作量,而非像素數,這就是為什麼要讀取 usage 而非憑肉眼判斷輸出結果。
這些模型都不具備的一項能力是提示詞快取——這通常是人們第一個想到的降低成本方法。圖片生成是無狀態的:沒有對話或 KV 狀態可以重複使用,usage 物件不包含快取欄位,而且(如我們下文所測量的)批次處理也不會共用提示詞。快取是對話功能,而非圖片功能,這排除了一個關於降低圖片成本的常見假設。
我們實際測量了
使用相同的電商風格商品提示詞,透過閘道進行真實生成,並根據回傳的 usage 對照各模型公開費率計算成本。以下五項發現,各自來自獨立的測試掃描。
1. 圖片才是成本所在,而非提示詞。 在文字生成圖片(輸入提示詞、輸出圖片)的情境下,費用有 97–100% 來自輸出權杖:一張 1024² 的 gpt-image-2 生成使用 21 個輸入權杖與 196 個輸出權杖(約 $0.0001 加上 $0.0059),而 gemini-2.5-flash-image 則使用 10 個輸入權杖。你撰寫的提示詞在費用上幾乎可以忽略不計,但那是因為它是文字。若改為輸入圖片(圖片生成圖片,例如「把這個馬克杯改成藍色」),輸入的權杖化結果就會相當龐大:
| 模型 | t2i 輸入 | i2i 輸入(1 張參考圖) | 輸出 |
|---|---|---|---|
gpt-image-2(低品質) | 21 tok | 1,043 tok | 196 tok |
gemini-2.5-flash-image | 10 tok | 1,297 tok | 1,290 tok |
輸入量暴增 50–130 倍,且呈線性增長:在 gpt-image-2 上,每增加一張參考圖約增加 1,025 個權杖(實測 1、2、3 張參考圖分別為 1,043、2,068、3,093 個權杖)。在低品質設定下,這些輸入權杖的數量是生成輸出的五倍。無論如何,原則都一樣:圖片才是成本所在,不管是你生成的還是你提供的,提示詞從來都不是。本文其餘部分聚焦於文字生成圖片;圖片生成圖片的完整成本分析將另文探討。
2. 模型選擇是 6 倍的槓桿。 相同的 1024² 請求,預設品質:
| 模型 | 計費方式 | 每張圖片費用 |
|---|---|---|
gpt-image-2 | 權杖 × quality 參數 | $0.0060 |
gpt-image-1-mini | 權杖 × quality 參數 | $0.0085 |
seedream-4-0 | 每次請求固定費率 | $0.030 |
qwen-image-2.0 | 每次請求固定費率 | $0.035 |
gemini-2.5-flash-image | 權杖 × 無 quality 參數 | $0.0387 |
最便宜與最貴的方案之間有 6.4 倍的差距,完全取決於各模型產生的輸出權杖數量。
3. 解析度對費用影響甚微。 將 gpt-image-2 從 1024² 掃描至 2048²,每張圖片的費用大致持平($0.0060 至 $0.0121);輸出權杖數並不與像素數成正比。gemini-2.5-flash-image 無論我們請求何種尺寸,都回傳相同的 1,290 個權杖,因為它僅支援 1K,size 參數只會改變長寬比。(gemini-3 的圖片等級確實支援 image_size,費用從 1K 到 4K 大約翻倍,但我們在此計算成本的 gemini-2.5-flash-image 並不支援。)固定費率模型本來就與解析度無關。就目前而言,按權杖計費的模型看起來難以被超越。
4. 品質設定是成本的交叉點。 掃描 gpt-image-2 各品質等級:
| quality | 1024² | 2048² |
|---|---|---|
| low | $0.0060(196 tok) | $0.0121(397 tok) |
| medium | $0.053(1,756 tok) | $0.107(3,568 tok) |
| high | $0.211(7,024 tok) | $0.428(14,272 tok) |
輸出權杖數從 low 到 medium 約增加 9 倍,從 low 到 high 約增加 36 倍。在低品質下,按權杖計費的模型是最便宜的選項;到了中或高品質,其費用就會超過固定費率($0.03–0.035)。交叉點就在算術結果所在之處,約為 1,000 個輸出權杖($0.03 ÷ $30/M):low 低於此門檻,medium 則超過。這也修正了我們先前的一個結論。「按權杖計費永遠最便宜」是在預設低品質下測試所產生的偏差。

相同提示詞,gpt-image-2,1024²。low / medium / high 分別計費 196 / 1,756 / 7,024 個輸出權杖,即 $0.006 / $0.053 / $0.215:在相同解析度下有 36 倍的差距。對於這類乾淨的商品照,三者幾乎難以分辨,因此最便宜的等級通常就已足夠。請根據任務需求設定 quality,而非預設使用 high。
5. 提示詞無法在多張圖片間共用。 在單次呼叫中生成 n 張圖片,並不會分攤提示詞的費用。gpt-image-2 會計費 N 次:輸入權杖數在 n=4 時從 28 增加到 112,而一段較長的品牌提示詞則從 499 增加到 1,996。n=1 與 n=4 時的每張圖片費用完全相同。由於也沒有快取機制,圖片生成並不存在任何提示詞費用共用的方式。你按每張輸出圖片付費,且提示詞每次都會重新計費。
決策規則
對於文字生成圖片,關鍵在於品質,而非人們通常假設的那些因素:
- 低品質 / 草稿 / 縮圖品質: 採用按權杖計費並附帶品質選項的模型(
gpt-image,約 $0.006–0.012)。在解析度不超過約 2K 的情況下,任何解析度都是最便宜的選擇。 - 中等 / 高品質: 採用按請求固定收費(
seedream/qwen,$0.03–0.035)。按權杖計費的帳單會快速攀升(在我們的測試中達 $0.05–0.43),而固定收費不僅更便宜,也與品質無關。 gemini(預設 1K 約 $0.039)鮮少是成本最優的選擇。 在低品質時被gpt-image壓低,在中等和高品質時被按請求固定收費模型壓低。它沒有quality調節選項;若要提升輸出品質,你會選擇其 Pro 方案或更高的image_size,而非考量價格。- 在同一品質層級內,解析度調整約使成本移動 2 倍, 不足以改變選擇。改變選擇的是品質。
n>1、快取和批次處理都無法降低每張圖片的成本。 沒有任何可共享的資源。- 圖片生成圖片:預設使用按圖片固定收費。 參考圖片屬於輸入,只有按權杖計費的模型會對其額外收費(每張約 1,025 個權杖);固定收費模型則免費包含。對於編輯任務,
seedream/qwen通常勝出。gpt-image只在低品質且參考圖片數量較少的編輯情境下更便宜(約 5 張時與固定價格持平),一旦品質或參考圖片數量增加便不再佔優。
電商是最典型的例子。假設你為目錄中的每件商品發送相同的長品牌提示詞來生成產品照片,並假設快取那個重複的提示詞可以省錢。這個假設有兩個問題:提示詞從來不是成本所在(圖片才是),而且生成任務根本沒有快取機制。由於真實的產品圖片屬於中等品質或更高,正確的選擇是按圖片固定收費的模型,無論你的提示詞有多重複,它都更便宜且更易預測。
開頭章節提到的功能限制仍可能推翻上述選擇:每次呼叫僅能生成一張圖片的模型、解析度的上下限、資料存放地區限制,以及模型所提供的調節選項(seed、negative_prompt、guidance_scale)。先依成本選擇,再確認功能是否符合需求。
為何可以信任這些數字
這些數據來自對各供應商公開費率的真實 usage 紀錄,而非估算。我們閘道上的圖片計費是無狀態的:僅在收到 2xx 回應時結算(生成失敗不收費),在任何費用產生前預先檢查最壞情況的成本,並對缺少 usage 的回應按上限計費,而非悄悄記為 $0。這個原則與我們在其他地方採用的一致:信任成本數據,而非供應商提供的數字。這也是我們用來稽核閘道是否謊報快取的方法。
結論
圖片生成看起來只是另一個端點,但計費單位已經改變。對於文字生成圖片,關鍵槓桿不是提示詞(沒有快取,沒有批次共享),也不是解析度,而是品質:gpt-image 在低品質時最便宜,按圖片固定收費(seedream / qwen)在中等和高品質時勝出,交叉點約在 1,000 個輸出權杖附近。請刻意設定品質,將模型與之匹配,並核查成本。當你從生成轉向編輯、需要輸入參考圖片時,請重新計算,因為輸入圖片將成為主要成本所在。
常見問題
提示詞快取能降低圖片生成成本嗎?
不能。生成是無狀態的:usage 物件沒有快取欄位,批次處理也會對每張圖片重新計算提示詞費用。成本來自輸出的圖片,而非文字。
按權杖計費還是按圖片計費,哪個比較便宜?
這取決於品質。對於低品質或草稿品質,使用具備 quality 調節旋鈕的模型(如 gpt-image)約為 $0.006–0.012。對於中等或高品質,則適合採用 seedream/qwen 這類按圖片固定收費的模型($0.03–0.035),因為按權杖計費的帳單會快速攀升。若是圖片轉圖片,答案更傾向固定收費:這類模型免費納入參考圖片,而按權杖計費則會對每張參考圖片額外收取約 1,025 個權杖的費用。
資料來源
- OpenAI: Image generation API
- OpenAI: gpt-image per-token pricing
- Google: Gemini API pricing (image output tokens)
- OpenAI: Prompt caching (why it does not apply to image generation)
以上資訊均於 2026-06-19 確認。本文不構成財務建議;使用前請自行核實當前定價。