真正影响图像生成账单的因素
我们在一个为文本 LLM 构建的网关中加入了图像生成功能,并测量了四个变量对成本的影响:模型、分辨率、图像数量和质量。其中影响最大的是质量参数——大多数图像 API 都提供这个参数,但大多数调用方都保持默认值不变。分辨率、提示词缓存和批处理的影响远比人们预期的要小。
图像模型的差异
图像模型之间并不能随意互换。它们在多个维度上存在差异,而其中只有一个维度(计费方式)与价格直接相关。当前可用模型一览:
| 系列 | 计费方式 | quality 参数 | 批量 n>1 | 分辨率 |
|---|---|---|---|---|
gpt-image(OpenAI) | 按 token | ✓ low/med/high | ✓ | 最高约 2K |
gemini-image(Google) | 按 token | ✗ | ✗ 每次调用 1 张 | 1K(gemini-3:最高 4K) |
qwen-image / wan2.7(阿里巴巴) | 按图像固定收费 | ✗ | ✓ | 512²–2048² |
seedream(BytePlus) | 按图像固定收费 | ✗ | ✗ 每次调用 1 张 | ≥1920²(4.5/5.0) |
如果你假设某个模型的行为与另一个相同,以下几个维度会让你吃亏:
- 计费方式。 按 token 计费(
gpt-image、gemini)或按图像固定收费(qwen、wan、seedream)。这个维度决定了你的账单,也是下一节的主题。 quality参数。 只有gpt-image提供该参数(low/medium/high)。Gemini 通过模型层级(flash到pro)或image_size来改变保真度;固定收费模型没有这个调节项。这一个参数可以让账单相差约 36 倍,因此是主要的成本杠杆,详见下文。- 批量(
n>1)并非通用。gpt-image、qwen和wan支持单次调用返回多张图像。所有 Gemini 和 Seedream 图像模型均为每次调用只返回一张图像:n=2会返回400错误,因此需要发起 N 次请求并自行编排批处理。 - 分辨率限制是双向的。
gemini-2.5-flash-image上限为 1K(1 MP),而gemini-3可达 2K/4K(从 1K 到 4K,账单大致翻倍)。Seedream 4.5/5.0 强制要求最低约 1920²,低于此值的请求会被拒绝。qwen-image的范围在 512²–2048² 之间。更高分辨率并不总是可用,而降低分辨率来节省成本也并不总是被允许。 - 控制参数和图生图功能存在差异。 只有部分模型支持
seed、negative_prompt或guidance_scale,编辑功能中参考图像的数量上限从 3 张(gemini-2.5)到 16 张(gpt-image)不等。
quality 参数有一个不太直观的特性。对于 gpt-image,输出 token 是计费单位,而非对返回文件的度量。OpenAI 根据已公布的(quality × size)费率表来确定 token 数量(gpt-image-1 在 1024² 下,low / medium / high 分别对应 272 / 1,056 / 4,160 个 token),因此 token 数量由 quality 决定,而非从返回的字节数推导而来。我们验证过:同一提示词在 1024² 下跨三个质量层级生成的 PNG 文件尺寸完全相同(均为 1024×1024,约 0.9 MB),但计费 token 分别为 196、1,756 和 7,024。相同分辨率、相同字节大小,成本却相差 36 倍。你为渲染工作量付费,而非为像素付费,这就是为什么要读取 usage 字段,而不是凭肉眼判断输出结果。
这些模型都不具备的一项能力是提示词缓存——这通常是人们首先想到的降本手段。图像生成是无状态的:没有可复用的对话或 KV 状态,usage 对象中不包含缓存字段,而且(如我们下文所测量的)批处理也不会共享提示词。缓存是聊天功能,而非图像功能,这排除了一个关于降低图像成本的常见假设。
我们实测了
使用相同的电商风格商品提示词,通过网关进行真实生成,并根据返回的 usage 对照各模型公开费率计算成本。以下五项发现,每项均来自独立的测试扫描。
1. 图像才是成本所在,而非提示词。 在文生图(输入提示词、输出图像)场景中,账单的 97–100% 来自输出 token:生成一张 1024² 的 gpt-image-2 图像消耗 21 个输入 token 和 196 个输出 token(约 $0.0001 加 $0.0059),gemini-2.5-flash-image 则消耗 10 个输入 token。你写的提示词在成本中几乎可以忽略不计——但这仅因为它是文本。如果改为输入图像(图生图,例如”把这个马克杯变成蓝色”),输入 token 数量会大幅攀升:
| 模型 | 文生图输入 | 图生图输入(1 张参考图) | 输出 |
|---|---|---|---|
gpt-image-2(低质量) | 21 tok | 1,043 tok | 196 tok |
gemini-2.5-flash-image | 10 tok | 1,297 tok | 1,290 tok |
输入量跳增 50–130 倍,且呈线性增长:在 gpt-image-2 上,每增加一张参考图约增加 1,025 个 token(实测 1、2、3 张参考图分别为 1,043、2,068、3,093 token)。在低质量设置下,这些输入 token 数量是生成输出的五倍。无论哪种方式,原则都一样:图像才是成本所在,无论是生成它还是提供它,提示词从来都不是。本文其余部分聚焦于文生图;图生图的完整经济学分析将另文探讨。
2. 模型选择是一个 6 倍的杠杆。 相同的 1024² 请求,默认质量:
| 模型 | 计费方式 | 每张图成本 |
|---|---|---|
gpt-image-2 | token · quality 参数 | $0.0060 |
gpt-image-1-mini | token · quality 参数 | $0.0085 |
seedream-4-0 | 按请求固定收费 | $0.030 |
qwen-image-2.0 | 按请求固定收费 | $0.035 |
gemini-2.5-flash-image | token · 无 quality 参数 | $0.0387 |
最便宜与最贵方案之间相差 6.4 倍,完全由各模型输出的 token 数量决定。
3. 分辨率对成本影响甚微。 将 gpt-image-2 从 1024² 扫描至 2048²,每张图成本基本持平($0.0060 至 $0.0121);输出 token 数量与像素数并不成比例。gemini-2.5-flash-image 无论请求何种尺寸均返回相同的 1,290 个 token,因为它仅支持 1K 分辨率,size 参数只改变宽高比。(gemini-3 的图像分级确实遵循 image_size,从 1K 到 4K 成本大约翻倍,但本文测算的 2.5-flash-image 并非如此。)按请求固定收费的模型在定义上与分辨率无关。目前来看,按 token 计费的模型难以被超越。
4. 质量是成本的分水岭。 对 gpt-image-2 进行质量档位扫描:
| quality | 1024² | 2048² |
|---|---|---|
| low | $0.0060(196 tok) | $0.0121(397 tok) |
| medium | $0.053(1,756 tok) | $0.107(3,568 tok) |
| high | $0.211(7,024 tok) | $0.428(14,272 tok) |
从 low 到 medium,输出 token 约增加 9 倍;从 low 到 high,约增加 36 倍。在低质量下,按 token 计费的模型是最便宜的选项;在中等或高质量下,其成本将超过固定按图收费的价格($0.03–0.035)。交叉点恰好在算术给出的位置,约为 1,000 个输出 token($0.03 ÷ $30/M):low 在此之下,medium 在此之上。这也纠正了我们此前的一个结论——“按 token 计费始终最便宜”是在默认低质量下测试的产物。

相同提示词,gpt-image-2,1024²。low / medium / high 分别计费 196 / 1,756 / 7,024 个输出 token,即 $0.006 / $0.053 / $0.215:相同分辨率下相差 36 倍。对于这类简洁的商品图,三者几乎难以区分,因此最低档往往已经足够。请根据任务需求设置 quality,而非默认使用 high。
5. 提示词无法在多张图像间分摊。 在一次调用中生成 n 张图像并不能摊薄提示词成本。gpt-image-2 会将其计费 N 次:输入 token 从 n=1 时的 28 个增至 n=4 时的 112 个,一段较长的品牌提示词则从 499 个增至 1,996 个。n=1 与 n=4 时的每张图成本完全相同。由于也没有缓存机制,图像生成不存在任何提示词成本共享机制。你按每张输出图像付费,提示词每次都会被重新计费。
决策规则
对于文生图,关键在于质量,而不是人们通常以为的那些因素:
- 低质量 / 草稿 / 缩略图质量: 按 token 计费的质量模型(
gpt-image,约 $0.006–0.012)。在不超过约 2K 的任意分辨率下均为最低价。 - 中等 / 高质量: 按请求固定计费(
seedream/qwen,$0.03–0.035)。按 token 计费的账单会迅速攀升(在我们的测试中达到 $0.05–0.43),而固定计费不仅更便宜,还与质量无关。 gemini(默认 1K 约 $0.039)很少是成本最优选择。 低质量时被gpt-image压价,中等和高质量时被按请求固定计费模型压价。它没有quality调节项;若要提升输出质量,你会选择其 Pro 档位或更高的image_size,而非为了价格。- 分辨率变化带来的成本差异在同一质量档位内约为 2 倍, 不足以改变选择。质量才是决定性因素。
n>1、缓存和批处理均不会降低单张图片的成本。 没有任何可共享的内容。- 图生图:默认选择按图片固定计费。 参考图片属于输入,只有按 token 计费的模型会对其额外收费(每张约 1,025 个 token);固定计费模型则免费包含。对于编辑任务,
seedream/qwen通常更胜一筹。gpt-image仅在低质量编辑且参考图片数量较少时更便宜(约 5 张时与固定价格持平),一旦质量或参考图片数量上升便不再占优。
电商场景是最典型的例子。假设你为目录中的每件商品发送相同的长品牌提示词来生成产品图,并认为缓存这个重复的提示词可以省钱。这一思路在两个层面上都行不通:提示词从来不是成本所在(图片才是),而且生成任务根本没有缓存机制。由于真实的产品图片质量为中等或更高,正确的选择是按图片固定计费的模型,无论提示词重复程度如何,它既更便宜,也更可预测。
开篇部分提到的能力限制仍可能推翻上述选择:每次调用只能生成一张图片的模型、分辨率的上下限、数据驻留限制,以及模型所暴露的调节项(seed、negative_prompt、guidance_scale)。先按成本选择,再确认能力是否满足需求。
为何可以信任这些数字
这些数据来自对各厂商标准费率的真实 usage 统计,而非估算。我们网关上的图片计费是无会话的:仅在收到 2xx 响应时结算(生成失败不收费),在任何费用产生前预先检查最坏情况下的成本,并对缺少 usage 字段的响应按上限计费,而非悄悄记为 $0。这一原则与我们在其他地方的做法一致:信任成本本身,而非厂商提供的数字。这也是我们用来审计网关是否在缓存上撒谎的方法。
结论
图片生成看起来只是另一个普通的端点,但计费单位已经改变。对于文生图,杠杆不在于提示词(无缓存、无批量共享),也不在于分辨率,而在于质量:gpt-image 在低质量时最便宜,按图片固定计费(seedream / qwen)在中等和高质量时胜出,交叉点约在 1,000 个输出 token 附近。有意识地设定质量,将模型与之匹配,并核查成本。当你从生成转向编辑、需要输入参考图片时,请重新计算,因为输入图片将成为主要成本所在。
常见问题
提示词缓存能降低图像生成成本吗?
不能。生成是无状态的:usage 对象没有缓存字段,批量处理会对每张图像重新计算提示词费用。成本取决于输出图像,而非文本。
按 token 计费还是按图像计费,哪个更便宜?
这取决于质量要求。对于低质量或草稿质量,带有 quality 调节参数的模型(如 gpt-image)约为 $0.006–0.012。对于中等或高质量,按图像固定收费的模型(如 seedream/qwen,$0.03–0.035)更划算,因为按 token 计费会迅速累积。对于图像到图像的场景,答案更倾向于固定收费:这类模型免费包含参考图像,而按 token 计费则会为每张参考图像额外收取约 1,025 个 token 的费用。
参考来源
- OpenAI: Image generation API
- OpenAI: gpt-image per-token pricing
- Google: Gemini API pricing (image output tokens)
- OpenAI: Prompt caching (why it does not apply to image generation)
以上内容均于 2026-06-19 核实。本文不构成财务建议;在依赖相关定价信息前,请自行核实当前价格。