真正影响图像生成账单的因素

目录
  1. 图像模型的差异
  2. 我们实测了
  3. 决策规则
  4. 为何可以信任这些数字
  5. 结论
  6. 常见问题
  7. 参考来源

我们在一个为文本 LLM 构建的网关中加入了图像生成功能,并测量了四个变量对成本的影响:模型、分辨率、图像数量和质量。其中影响最大的是质量参数——大多数图像 API 都提供这个参数,但大多数调用方都保持默认值不变。分辨率、提示词缓存和批处理的影响远比人们预期的要小。


图像模型的差异

图像模型之间并不能随意互换。它们在多个维度上存在差异,而其中只有一个维度(计费方式)与价格直接相关。当前可用模型一览:

系列计费方式quality 参数批量 n>1分辨率
gpt-image(OpenAI)按 tokenlow/med/high最高约 2K
gemini-image(Google)按 token✗ 每次调用 1 张1K(gemini-3:最高 4K)
qwen-image / wan2.7(阿里巴巴)按图像固定收费512²–2048²
seedream(BytePlus)按图像固定收费✗ 每次调用 1 张≥1920²(4.5/5.0)

如果你假设某个模型的行为与另一个相同,以下几个维度会让你吃亏:

  • 计费方式。 按 token 计费(gpt-imagegemini)或按图像固定收费(qwenwanseedream)。这个维度决定了你的账单,也是下一节的主题。
  • quality 参数。 只有 gpt-image 提供该参数(low/medium/high)。Gemini 通过模型层级(flashpro)或 image_size 来改变保真度;固定收费模型没有这个调节项。这一个参数可以让账单相差约 36 倍,因此是主要的成本杠杆,详见下文。
  • 批量(n>1)并非通用。 gpt-imageqwenwan 支持单次调用返回多张图像。所有 Gemini 和 Seedream 图像模型均为每次调用只返回一张图像:n=2 会返回 400 错误,因此需要发起 N 次请求并自行编排批处理。
  • 分辨率限制是双向的。 gemini-2.5-flash-image 上限为 1K(1 MP),而 gemini-3 可达 2K/4K(从 1K 到 4K,账单大致翻倍)。Seedream 4.5/5.0 强制要求最低约 1920²,低于此值的请求会被拒绝。qwen-image 的范围在 512²–2048² 之间。更高分辨率并不总是可用,而降低分辨率来节省成本也并不总是被允许。
  • 控制参数和图生图功能存在差异。 只有部分模型支持 seednegative_promptguidance_scale,编辑功能中参考图像的数量上限从 3 张(gemini-2.5)到 16 张(gpt-image)不等。

quality 参数有一个不太直观的特性。对于 gpt-image,输出 token 是计费单位,而非对返回文件的度量。OpenAI 根据已公布的(quality × size)费率表来确定 token 数量(gpt-image-1 在 1024² 下,low / medium / high 分别对应 272 / 1,056 / 4,160 个 token),因此 token 数量由 quality 决定,而非从返回的字节数推导而来。我们验证过:同一提示词在 1024² 下跨三个质量层级生成的 PNG 文件尺寸完全相同(均为 1024×1024,约 0.9 MB),但计费 token 分别为 196、1,756 和 7,024。相同分辨率、相同字节大小,成本却相差 36 倍。你为渲染工作量付费,而非为像素付费,这就是为什么要读取 usage 字段,而不是凭肉眼判断输出结果。

这些模型都不具备的一项能力是提示词缓存——这通常是人们首先想到的降本手段。图像生成是无状态的:没有可复用的对话或 KV 状态,usage 对象中不包含缓存字段,而且(如我们下文所测量的)批处理也不会共享提示词。缓存是聊天功能,而非图像功能,这排除了一个关于降低图像成本的常见假设。


我们实测了

使用相同的电商风格商品提示词,通过网关进行真实生成,并根据返回的 usage 对照各模型公开费率计算成本。以下五项发现,每项均来自独立的测试扫描。

1. 图像才是成本所在,而非提示词。 在文生图(输入提示词、输出图像)场景中,账单的 97–100% 来自输出 token:生成一张 1024² 的 gpt-image-2 图像消耗 21 个输入 token 和 196 个输出 token(约 $0.0001 加 $0.0059),gemini-2.5-flash-image 则消耗 10 个输入 token。你写的提示词在成本中几乎可以忽略不计——但这仅因为它是文本。如果改为输入图像(图生图,例如”把这个马克杯变成蓝色”),输入 token 数量会大幅攀升:

模型文生图输入图生图输入(1 张参考图)输出
gpt-image-2(低质量)21 tok1,043 tok196 tok
gemini-2.5-flash-image10 tok1,297 tok1,290 tok

输入量跳增 50–130 倍,且呈线性增长:在 gpt-image-2 上,每增加一张参考图约增加 1,025 个 token(实测 1、2、3 张参考图分别为 1,043、2,068、3,093 token)。在低质量设置下,这些输入 token 数量是生成输出的五倍。无论哪种方式,原则都一样:图像才是成本所在,无论是生成它还是提供它,提示词从来都不是。本文其余部分聚焦于文生图;图生图的完整经济学分析将另文探讨。

2. 模型选择是一个 6 倍的杠杆。 相同的 1024² 请求,默认质量:

模型计费方式每张图成本
gpt-image-2token · quality 参数$0.0060
gpt-image-1-minitoken · quality 参数$0.0085
seedream-4-0按请求固定收费$0.030
qwen-image-2.0按请求固定收费$0.035
gemini-2.5-flash-imagetoken · 无 quality 参数$0.0387

最便宜与最贵方案之间相差 6.4 倍,完全由各模型输出的 token 数量决定。

3. 分辨率对成本影响甚微。gpt-image-2 从 1024² 扫描至 2048²,每张图成本基本持平($0.0060 至 $0.0121);输出 token 数量与像素数并不成比例。gemini-2.5-flash-image 无论请求何种尺寸均返回相同的 1,290 个 token,因为它仅支持 1K 分辨率,size 参数只改变宽高比。(gemini-3 的图像分级确实遵循 image_size,从 1K 到 4K 成本大约翻倍,但本文测算的 2.5-flash-image 并非如此。)按请求固定收费的模型在定义上与分辨率无关。目前来看,按 token 计费的模型难以被超越。

4. 质量是成本的分水岭。gpt-image-2 进行质量档位扫描:

quality1024²2048²
low$0.0060(196 tok)$0.0121(397 tok)
medium$0.053(1,756 tok)$0.107(3,568 tok)
high$0.211(7,024 tok)$0.428(14,272 tok)

从 low 到 medium,输出 token 约增加 9 倍;从 low 到 high,约增加 36 倍。在低质量下,按 token 计费的模型是最便宜的选项;在中等或高质量下,其成本将超过固定按图收费的价格($0.03–0.035)。交叉点恰好在算术给出的位置,约为 1,000 个输出 token($0.03 ÷ $30/M):low 在此之下,medium 在此之上。这也纠正了我们此前的一个结论——“按 token 计费始终最便宜”是在默认低质量下测试的产物。

同一提示词在 gpt-image-2 低、中、高质量下的渲染效果:三张同样清晰的 1024² 商品图,分别标注 196 / 1,756 / 7,024 输出 token 及 $0.006 / $0.053 / $0.215。

相同提示词,gpt-image-2,1024²。low / medium / high 分别计费 196 / 1,756 / 7,024 个输出 token,即 $0.006 / $0.053 / $0.215:相同分辨率下相差 36 倍。对于这类简洁的商品图,三者几乎难以区分,因此最低档往往已经足够。请根据任务需求设置 quality,而非默认使用 high

5. 提示词无法在多张图像间分摊。 在一次调用中生成 n 张图像并不能摊薄提示词成本。gpt-image-2 会将其计费 N 次:输入 token 从 n=1 时的 28 个增至 n=4 时的 112 个,一段较长的品牌提示词则从 499 个增至 1,996 个。n=1n=4 时的每张图成本完全相同。由于也没有缓存机制,图像生成不存在任何提示词成本共享机制。你按每张输出图像付费,提示词每次都会被重新计费。


决策规则

对于文生图,关键在于质量,而不是人们通常以为的那些因素:

  • 低质量 / 草稿 / 缩略图质量: 按 token 计费的质量模型(gpt-image,约 $0.006–0.012)。在不超过约 2K 的任意分辨率下均为最低价。
  • 中等 / 高质量: 按请求固定计费(seedream / qwen,$0.03–0.035)。按 token 计费的账单会迅速攀升(在我们的测试中达到 $0.05–0.43),而固定计费不仅更便宜,还与质量无关。
  • gemini(默认 1K 约 $0.039)很少是成本最优选择。 低质量时被 gpt-image 压价,中等和高质量时被按请求固定计费模型压价。它没有 quality 调节项;若要提升输出质量,你会选择其 Pro 档位或更高的 image_size,而非为了价格。
  • 分辨率变化带来的成本差异在同一质量档位内约为 2 倍, 不足以改变选择。质量才是决定性因素。
  • n>1、缓存和批处理均不会降低单张图片的成本。 没有任何可共享的内容。
  • 图生图:默认选择按图片固定计费。 参考图片属于输入,只有按 token 计费的模型会对其额外收费(每张约 1,025 个 token);固定计费模型则免费包含。对于编辑任务,seedream / qwen 通常更胜一筹。gpt-image 仅在低质量编辑且参考图片数量较少时更便宜(约 5 张时与固定价格持平),一旦质量或参考图片数量上升便不再占优。

电商场景是最典型的例子。假设你为目录中的每件商品发送相同的长品牌提示词来生成产品图,并认为缓存这个重复的提示词可以省钱。这一思路在两个层面上都行不通:提示词从来不是成本所在(图片才是),而且生成任务根本没有缓存机制。由于真实的产品图片质量为中等或更高,正确的选择是按图片固定计费的模型,无论提示词重复程度如何,它既更便宜,也更可预测。

开篇部分提到的能力限制仍可能推翻上述选择:每次调用只能生成一张图片的模型、分辨率的上下限、数据驻留限制,以及模型所暴露的调节项(seednegative_promptguidance_scale)。先按成本选择,再确认能力是否满足需求。


为何可以信任这些数字

这些数据来自对各厂商标准费率的真实 usage 统计,而非估算。我们网关上的图片计费是无会话的:仅在收到 2xx 响应时结算(生成失败不收费),在任何费用产生前预先检查最坏情况下的成本,并对缺少 usage 字段的响应按上限计费,而非悄悄记为 $0。这一原则与我们在其他地方的做法一致:信任成本本身,而非厂商提供的数字。这也是我们用来审计网关是否在缓存上撒谎的方法。


结论

图片生成看起来只是另一个普通的端点,但计费单位已经改变。对于文生图,杠杆不在于提示词(无缓存、无批量共享),也不在于分辨率,而在于质量:gpt-image 在低质量时最便宜,按图片固定计费(seedream / qwen)在中等和高质量时胜出,交叉点约在 1,000 个输出 token 附近。有意识地设定质量,将模型与之匹配,并核查成本。当你从生成转向编辑、需要输入参考图片时,请重新计算,因为输入图片将成为主要成本所在。


常见问题

提示词缓存能降低图像生成成本吗? 不能。生成是无状态的:usage 对象没有缓存字段,批量处理会对每张图像重新计算提示词费用。成本取决于输出图像,而非文本。

按 token 计费还是按图像计费,哪个更便宜? 这取决于质量要求。对于低质量或草稿质量,带有 quality 调节参数的模型(如 gpt-image)约为 $0.006–0.012。对于中等或高质量,按图像固定收费的模型(如 seedream/qwen,$0.03–0.035)更划算,因为按 token 计费会迅速累积。对于图像到图像的场景,答案更倾向于固定收费:这类模型免费包含参考图像,而按 token 计费则会为每张参考图像额外收取约 1,025 个 token 的费用。


参考来源

以上内容均于 2026-06-19 核实。本文不构成财务建议;在依赖相关定价信息前,请自行核实当前价格。

← 返回博客