真正影响图像生成账单的因素

2026年6月19日 · image-generation · billing · llm-gateway · cost

图像模型的差异
我们实测了
决策规则
为何可以信任这些数字
结论
常见问题
参考来源

我们在一个为文本 LLM 构建的网关中加入了图像生成功能，并测量了四个变量对成本的影响：模型、分辨率、图像数量和质量。其中影响最大的是质量参数——大多数图像 API 都提供这个参数，但大多数调用方都保持默认值不变。分辨率、提示词缓存和批处理的影响远比人们预期的要小。

图像模型的差异

图像模型之间并不能随意互换。它们在多个维度上存在差异，而其中只有一个维度（计费方式）与价格直接相关。当前可用模型一览：

系列	计费方式	`quality` 参数	批量 `n>1`	分辨率
`gpt-image`（OpenAI）	按 token	✓ `low`/`med`/`high`	✓	最高约 2K
`gemini-image`（Google）	按 token	✗	✗ 每次调用 1 张	1K（`gemini-3`：最高 4K）
`qwen-image` / `wan2.7`（阿里巴巴）	按图像固定收费	✗	✓	512²–2048²
`seedream`（BytePlus）	按图像固定收费	✗	✗ 每次调用 1 张	≥1920²（4.5/5.0）

如果你假设某个模型的行为与另一个相同，以下几个维度会让你吃亏：

计费方式。 按 token 计费（gpt-image、gemini）或按图像固定收费（qwen、wan、seedream）。这个维度决定了你的账单，也是下一节的主题。
quality 参数。 只有 gpt-image 提供该参数（low/medium/high）。Gemini 通过模型层级（flash 到 pro）或 image_size 来改变保真度；固定收费模型没有这个调节项。这一个参数可以让账单相差约 36 倍，因此是主要的成本杠杆，详见下文。
批量（n>1）并非通用。 gpt-image、qwen 和 wan 支持单次调用返回多张图像。所有 Gemini 和 Seedream 图像模型均为每次调用只返回一张图像：n=2 会返回 400 错误，因此需要发起 N 次请求并自行编排批处理。
分辨率限制是双向的。 gemini-2.5-flash-image 上限为 1K（1 MP），而 gemini-3 可达 2K/4K（从 1K 到 4K，账单大致翻倍）。Seedream 4.5/5.0 强制要求最低约 1920²，低于此值的请求会被拒绝。qwen-image 的范围在 512²–2048² 之间。更高分辨率并不总是可用，而降低分辨率来节省成本也并不总是被允许。
控制参数和图生图功能存在差异。 只有部分模型支持 seed、negative_prompt 或 guidance_scale，编辑功能中参考图像的数量上限从 3 张（gemini-2.5）到 16 张（gpt-image）不等。

quality 参数有一个不太直观的特性。对于 gpt-image，输出 token 是计费单位，而非对返回文件的度量。OpenAI 根据已公布的（quality × size）费率表来确定 token 数量（gpt-image-1 在 1024² 下，low / medium / high 分别对应 272 / 1,056 / 4,160 个 token），因此 token 数量由 quality 决定，而非从返回的字节数推导而来。我们验证过：同一提示词在 1024² 下跨三个质量层级生成的 PNG 文件尺寸完全相同（均为 1024×1024，约 0.9 MB），但计费 token 分别为 196、1,756 和 7,024。相同分辨率、相同字节大小，成本却相差 36 倍。你为渲染工作量付费，而非为像素付费，这就是为什么要读取 usage 字段，而不是凭肉眼判断输出结果。

这些模型都不具备的一项能力是提示词缓存——这通常是人们首先想到的降本手段。图像生成是无状态的：没有可复用的对话或 KV 状态，usage 对象中不包含缓存字段，而且（如我们下文所测量的）批处理也不会共享提示词。缓存是聊天功能，而非图像功能，这排除了一个关于降低图像成本的常见假设。

我们实测了

使用相同的电商风格商品提示词，通过网关进行真实生成，并根据返回的 usage 对照各模型公开费率计算成本。以下五项发现，每项均来自独立的测试扫描。

1. 图像才是成本所在，而非提示词。 在文生图（输入提示词、输出图像）场景中，账单的 97–100% 来自输出 token：生成一张 1024² 的 gpt-image-2 图像消耗 21 个输入 token 和 196 个输出 token（约 $0.0001 加 $0.0059），gemini-2.5-flash-image 则消耗 10 个输入 token。你写的提示词在成本中几乎可以忽略不计——但这仅因为它是文本。如果改为输入图像（图生图，例如”把这个马克杯变成蓝色”），输入 token 数量会大幅攀升：

模型	文生图输入	图生图输入（1 张参考图）	输出
`gpt-image-2`（低质量）	21 tok	1,043 tok	196 tok
`gemini-2.5-flash-image`	10 tok	1,297 tok	1,290 tok

输入量跳增 50–130 倍，且呈线性增长：在 gpt-image-2 上，每增加一张参考图约增加 1,025 个 token（实测 1、2、3 张参考图分别为 1,043、2,068、3,093 token）。在低质量设置下，这些输入 token 数量是生成输出的五倍。无论哪种方式，原则都一样：图像才是成本所在，无论是生成它还是提供它，提示词从来都不是。本文其余部分聚焦于文生图；图生图的完整经济学分析将另文探讨。

2. 模型选择是一个 6 倍的杠杆。 相同的 1024² 请求，默认质量：

模型	计费方式	每张图成本
`gpt-image-2`	token · `quality` 参数	$0.0060
`gpt-image-1-mini`	token · `quality` 参数	$0.0085
`seedream-4-0`	按请求固定收费	$0.030
`qwen-image-2.0`	按请求固定收费	$0.035
`gemini-2.5-flash-image`	token · 无 `quality` 参数	$0.0387

最便宜与最贵方案之间相差 6.4 倍，完全由各模型输出的 token 数量决定。

3. 分辨率对成本影响甚微。 将 gpt-image-2 从 1024² 扫描至 2048²，每张图成本基本持平（$0.0060 至 $0.0121）；输出 token 数量与像素数并不成比例。gemini-2.5-flash-image 无论请求何种尺寸均返回相同的 1,290 个 token，因为它仅支持 1K 分辨率，size 参数只改变宽高比。（gemini-3 的图像分级确实遵循 image_size，从 1K 到 4K 成本大约翻倍，但本文测算的 2.5-flash-image 并非如此。）按请求固定收费的模型在定义上与分辨率无关。目前来看，按 token 计费的模型难以被超越。

4. 质量是成本的分水岭。 对 gpt-image-2 进行质量档位扫描：

quality	1024²	2048²
low	$0.0060（196 tok）	$0.0121（397 tok）
medium	$0.053（1,756 tok）	$0.107（3,568 tok）
high	$0.211（7,024 tok）	$0.428（14,272 tok）

从 low 到 medium，输出 token 约增加 9 倍；从 low 到 high，约增加 36 倍。在低质量下，按 token 计费的模型是最便宜的选项；在中等或高质量下，其成本将超过固定按图收费的价格（$0.03–0.035）。交叉点恰好在算术给出的位置，约为 1,000 个输出 token（$0.03 ÷ $30/M）：low 在此之下，medium 在此之上。这也纠正了我们此前的一个结论——“按 token 计费始终最便宜”是在默认低质量下测试的产物。

同一提示词在 gpt-image-2 低、中、高质量下的渲染效果：三张同样清晰的 1024² 商品图，分别标注 196 / 1,756 / 7,024 输出 token 及 $0.006 / $0.053 / $0.215。

相同提示词，gpt-image-2，1024²。low / medium / high 分别计费 196 / 1,756 / 7,024 个输出 token，即 $0.006 / $0.053 / $0.215：相同分辨率下相差 36 倍。对于这类简洁的商品图，三者几乎难以区分，因此最低档往往已经足够。请根据任务需求设置 quality，而非默认使用 high。

5. 提示词无法在多张图像间分摊。 在一次调用中生成 n 张图像并不能摊薄提示词成本。gpt-image-2 会将其计费 N 次：输入 token 从 n=1 时的 28 个增至 n=4 时的 112 个，一段较长的品牌提示词则从 499 个增至 1,996 个。n=1 与 n=4 时的每张图成本完全相同。由于也没有缓存机制，图像生成不存在任何提示词成本共享机制。你按每张输出图像付费，提示词每次都会被重新计费。

决策规则

对于文生图，关键在于质量，而不是人们通常以为的那些因素：

低质量 / 草稿 / 缩略图质量： 按 token 计费的质量模型（gpt-image，约 $0.006–0.012）。在不超过约 2K 的任意分辨率下均为最低价。
中等 / 高质量： 按请求固定计费（seedream / qwen，$0.03–0.035）。按 token 计费的账单会迅速攀升（在我们的测试中达到 $0.05–0.43），而固定计费不仅更便宜，还与质量无关。
gemini（默认 1K 约 $0.039）很少是成本最优选择。 低质量时被 gpt-image 压价，中等和高质量时被按请求固定计费模型压价。它没有 quality 调节项；若要提升输出质量，你会选择其 Pro 档位或更高的 image_size，而非为了价格。
分辨率变化带来的成本差异在同一质量档位内约为 2 倍， 不足以改变选择。质量才是决定性因素。
n>1、缓存和批处理均不会降低单张图片的成本。 没有任何可共享的内容。
图生图：默认选择按图片固定计费。 参考图片属于输入，只有按 token 计费的模型会对其额外收费（每张约 1,025 个 token）；固定计费模型则免费包含。对于编辑任务，seedream / qwen 通常更胜一筹。gpt-image 仅在低质量编辑且参考图片数量较少时更便宜（约 5 张时与固定价格持平），一旦质量或参考图片数量上升便不再占优。

电商场景是最典型的例子。假设你为目录中的每件商品发送相同的长品牌提示词来生成产品图，并认为缓存这个重复的提示词可以省钱。这一思路在两个层面上都行不通：提示词从来不是成本所在（图片才是），而且生成任务根本没有缓存机制。由于真实的产品图片质量为中等或更高，正确的选择是按图片固定计费的模型，无论提示词重复程度如何，它既更便宜，也更可预测。

开篇部分提到的能力限制仍可能推翻上述选择：每次调用只能生成一张图片的模型、分辨率的上下限、数据驻留限制，以及模型所暴露的调节项（seed、negative_prompt、guidance_scale）。先按成本选择，再确认能力是否满足需求。

为何可以信任这些数字

这些数据来自对各厂商标准费率的真实 usage 统计，而非估算。我们网关上的图片计费是无会话的：仅在收到 2xx 响应时结算（生成失败不收费），在任何费用产生前预先检查最坏情况下的成本，并对缺少 usage 字段的响应按上限计费，而非悄悄记为 $0。这一原则与我们在其他地方的做法一致：信任成本本身，而非厂商提供的数字。这也是我们用来审计网关是否在缓存上撒谎的方法。

结论

图片生成看起来只是另一个普通的端点，但计费单位已经改变。对于文生图，杠杆不在于提示词（无缓存、无批量共享），也不在于分辨率，而在于质量：gpt-image 在低质量时最便宜，按图片固定计费（seedream / qwen）在中等和高质量时胜出，交叉点约在 1,000 个输出 token 附近。有意识地设定质量，将模型与之匹配，并核查成本。当你从生成转向编辑、需要输入参考图片时，请重新计算，因为输入图片将成为主要成本所在。

常见问题

提示词缓存能降低图像生成成本吗？ 不能。生成是无状态的：usage 对象没有缓存字段，批量处理会对每张图像重新计算提示词费用。成本取决于输出图像，而非文本。

按 token 计费还是按图像计费，哪个更便宜？ 这取决于质量要求。对于低质量或草稿质量，带有 quality 调节参数的模型（如 gpt-image）约为 $0.006–0.012。对于中等或高质量，按图像固定收费的模型（如 seedream/qwen，$0.03–0.035）更划算，因为按 token 计费会迅速累积。对于图像到图像的场景，答案更倾向于固定收费：这类模型免费包含参考图像，而按 token 计费则会为每张参考图像额外收取约 1,025 个 token 的费用。

参考来源

以上内容均于 2026-06-19 核实。本文不构成财务建议；在依赖相关定价信息前，请自行核实当前价格。

← 返回博客