O Que Realmente Impulsiona Sua Fatura de Geração de Imagens
Conteúdo
Adicionamos geração de imagens a um gateway construído para LLMs de texto e medimos o que impulsiona o custo em quatro variáveis: modelo, resolução, quantidade de imagens e qualidade. O maior fator é a qualidade, um parâmetro que a maioria das APIs de imagem expõe e que a maioria dos usuários deixa no padrão. Resolução, cache de prompt e processamento em lote importam muito menos do que as pessoas esperam.
Como os modelos de imagem diferem
Modelos de imagem não são substitutos intercambiáveis entre si. Eles divergem em vários eixos, e apenas um deles (formato de cobrança) é sobre preço. O catálogo ativo em resumo:
| Família | Cobrança | Controle quality | Lote n>1 | Resolução |
|---|---|---|---|---|
gpt-image (OpenAI) | por token | ✓ low/med/high | ✓ | até ≈2K |
gemini-image (Google) | por token | ✗ | ✗ 1/chamada | 1K (gemini-3: até 4K) |
qwen-image / wan2.7 (Alibaba) | fixo/imagem | ✗ | ✓ | 512²–2048² |
seedream (BytePlus) | fixo/imagem | ✗ | ✗ 1/chamada | ≥1920² (4.5/5.0) |
Os eixos que causam problemas se você assume que um modelo se comporta como outro:
- Formato de cobrança. Por token (
gpt-image,gemini) ou fixo por imagem (qwen,wan,seedream). Este é o eixo que determina sua fatura, e é o assunto da próxima seção. - O controle
quality. Apenasgpt-imageo possui (low/medium/high). O Gemini altera a fidelidade por nível de modelo (flashparapro) ouimage_size; modelos de preço fixo não têm esse controle. Esse único parâmetro faz a fatura variar cerca de 36×, portanto é o principal fator de custo, abordado abaixo. - Lote (
n>1) não é universal.gpt-image,qwenewanretornam várias imagens por chamada. Todo modelo de imagem do Gemini e do Seedream é de uma imagem por chamada:n=2retorna um400, então você emite N requisições e orquestra o lote você mesmo. - Limites de resolução funcionam nos dois sentidos.
gemini-2.5-flash-imagetem limite máximo de 1K (1 MP), enquantogemini-3chega a 2K/4K (e sua fatura praticamente dobra de 1K para 4K). Seedream 4.5/5.0 impõem um mínimo de cerca de 1920² e rejeitam qualquer coisa menor.qwen-imageopera na faixa de 512²–2048². Resolução mais alta nem sempre está disponível, e reduzir a resolução para economizar nem sempre é permitido. - Controles e image-to-image diferem. Apenas alguns modelos aceitam
seed,negative_promptouguidance_scale, e o limite de imagens de referência para edição vai de 3 (gemini-2.5) a 16 (gpt-image).
O controle quality tem uma propriedade não óbvia. Para gpt-image, um token de saída é uma unidade de cobrança, não uma medida do arquivo que você recebe. A OpenAI atribui a contagem a partir de uma tabela de taxas publicada por (quality × size) (272 / 1.056 / 4.160 tokens para low / medium / high em 1024² no gpt-image-1), portanto a contagem é definida por quality, não derivada dos bytes retornados. Verificamos: o mesmo prompt em 1024² nos três níveis produziu PNGs idênticos de 1024×1024 com aproximadamente o mesmo tamanho de arquivo (cerca de 0,9 MB), mas cobrou 196, 1.756 e 7.024 tokens. Mesma resolução, mesmo tamanho em bytes, 36× o custo. Você paga pelo esforço de renderização, não pelos pixels, e é por isso que você lê usage em vez de avaliar visualmente a saída.
Uma capacidade que nenhum desses modelos possui é o cache de prompt, geralmente a primeira ideia de economia de custos que as pessoas consideram. A geração de imagens é stateless: não há conversa ou estado KV para reutilizar, o objeto usage não carrega campos de cache e (como medimos abaixo) o processamento em lote também não compartilha o prompt. Cache é um recurso de chat, não de imagem, o que descarta uma suposição comum sobre como reduzir o custo de imagens.
Nós medimos
Mesmo prompt de produto no estilo e-commerce, gerações reais pelo gateway, com custo calculado a partir do usage retornado em relação às tarifas publicadas de cada modelo. Cinco descobertas, cada uma de uma varredura separada.
1. A imagem é o custo, não o prompt. Em text-to-image (um prompt de entrada, uma imagem de saída), a conta é 97–100% tokens de saída: uma geração gpt-image-2 de 1024² usa 21 tokens de entrada e 196 de saída (cerca de $0,0001 mais $0,0059), e o gemini-2.5-flash-image usa 10 de entrada. O prompt que você escreve é um erro de arredondamento, mas apenas porque é texto. Forneça uma imagem em vez disso (image-to-image, como “deixe esta caneca azul”) e a entrada tokeniza de forma volumosa:
| Modelo | Entrada t2i | Entrada i2i (1 ref) | Saída |
|---|---|---|---|
gpt-image-2 (low) | 21 tok | 1.043 tok | 196 tok |
gemini-2.5-flash-image | 10 tok | 1.297 tok | 1.290 tok |
A entrada salta 50–130×, e escala linearmente: cada referência extra adiciona cerca de 1.025 tokens no gpt-image-2 (1, 2 e 3 referências medidas em 1.043, 2.068 e 3.093). Na qualidade baixa, esses tokens de entrada superam os tokens de saída gerados em cinco para um. O princípio vale nos dois casos: uma imagem é o custo, seja você a gerando ou fornecendo, e o prompt nunca é. O restante deste artigo permanece em text-to-image; a economia mais completa de image-to-image é um acompanhamento próprio.
2. A escolha do modelo é uma alavanca de 6×. Requisição idêntica de 1024², qualidade padrão:
| Modelo | Cobrança | Custo / imagem |
|---|---|---|
gpt-image-2 | token · controle de quality | $0,0060 |
gpt-image-1-mini | token · controle de quality | $0,0085 |
seedream-4-0 | fixo por requisição | $0,030 |
qwen-image-2.0 | fixo por requisição | $0,035 |
gemini-2.5-flash-image | token · sem controle de quality | $0,0387 |
Uma diferença de 6,4× entre o caminho mais barato e o mais caro, impulsionada inteiramente pela quantidade de tokens de saída que cada modelo emite.
3. A resolução mal altera o custo. Variando o gpt-image-2 de 1024² para 2048², o custo por imagem permaneceu praticamente estável ($0,0060 para $0,0121); os tokens de saída não são proporcionais aos pixels. O gemini-2.5-flash-image retornou os mesmos 1.290 tokens independentemente do tamanho solicitado, porque é apenas 1K e o size só altera a proporção. (Os níveis de imagem do gemini-3 respeitam o image_size, aproximadamente dobrando o custo de 1K para 4K, mas o 2.5-flash-image, o modelo que calculamos aqui, não o faz.) Modelos com preço fixo por imagem são independentes de resolução por definição. Até agora, o modelo por token parece difícil de superar.
4. A qualidade é o ponto de cruzamento. Variando o gpt-image-2 pelos níveis de qualidade:
| quality | 1024² | 2048² |
|---|---|---|
| low | $0,0060 (196 tok) | $0,0121 (397 tok) |
| medium | $0,053 (1.756 tok) | $0,107 (3.568 tok) |
| high | $0,211 (7.024 tok) | $0,428 (14.272 tok) |
Os tokens de saída escalam cerca de 9× de low para medium e cerca de 36× de low para high. Na qualidade baixa, o modelo por token é a opção mais barata; em medium ou high, ele ultrapassa o preço fixo por imagem ($0,03–0,035). O ponto de cruzamento está onde a aritmética o coloca, em torno de 1.000 tokens de saída ($0,03 ÷ $30/M): low fica abaixo, medium fica acima. Isso também corrige uma conclusão anterior nossa. “Por token é sempre o mais barato” era um artefato de testes na qualidade padrão baixa.

Mesmo prompt, gpt-image-2, 1024². low / medium / high cobram 196 / 1.756 / 7.024 tokens de saída, ou $0,006 / $0,053 / $0,215: uma diferença de 36× na mesma resolução. Para uma foto de produto limpa como esta, as três são difíceis de distinguir, então o nível mais barato frequentemente é suficiente. Defina quality de acordo com a tarefa em vez de usar high como padrão.
5. Você não pode compartilhar um prompt entre imagens. Gerar n imagens em uma única chamada não amortiza o prompt. O gpt-image-2 cobra N vezes: os tokens de entrada foram de 28 para 112 com n=4, e um prompt de marca longo foi de 499 para 1.996. O custo por imagem foi idêntico com n=1 e n=4. Sem cache também, não há mecanismo de compartilhamento de custo de prompt para geração de imagens. Você paga por imagem de saída, e o prompt é cobrado novamente a cada vez.
A regra de decisão
Para texto para imagem, tudo se resume à qualidade, não aos fatores que as pessoas costumam assumir:
- Qualidade baixa / rascunho / miniatura: um modelo com cobrança por token e qualidade (
gpt-image, cerca de $0,006–0,012). O mais barato em qualquer resolução até aproximadamente 2K. - Qualidade média / alta: cobrança fixa por requisição (
seedream/qwen, $0,03–0,035). A conta por token dispara ($0,05–0,43 em nossa análise), e o valor fixo é ao mesmo tempo mais barato e independente da qualidade. gemini(cerca de $0,039 no padrão de 1K) raramente é a opção de menor custo. É superado pelogpt-imagena qualidade baixa e pelos modelos de preço fixo por requisição na qualidade média e alta. Ele não possui um controle dequality; você escolheria o nível Pro ou umimage_sizemaior para obter melhor qualidade de saída, não por preço.- Mudanças de resolução movem o custo em cerca de 2× dentro de um nível de qualidade, o que não é suficiente para mudar a escolha. A qualidade é o que muda.
n>1, cache e processamento em lote nunca reduzem o custo por imagem. Não há nada a compartilhar.- Imagem para imagem: prefira o modelo fixo por imagem. Uma imagem de referência é uma entrada, e apenas os modelos por token cobram um adicional por ela (cerca de 1.025 tokens cada); os modelos de preço fixo a incluem gratuitamente. Para edição,
seedream/qwengeralmente vencem. Ogpt-imagesó é mais barato para edições de baixa qualidade com poucas referências (em torno de 5 cruza o preço fixo), e perde quando a qualidade ou a quantidade de referências aumenta.
O e-commerce é o exemplo mais claro. Suponha que você gere fotos de produtos enviando o mesmo prompt longo de marca para cada item do catálogo, e assume que fazer cache desse prompt repetido economizará dinheiro. Isso falha por dois motivos: o prompt nunca foi o custo (a imagem é), e não há cache para geração de qualquer forma. Como imagens reais de produtos são de qualidade média ou superior, a escolha certa é um modelo de preço fixo por imagem, que é ao mesmo tempo mais barato e mais previsível, independentemente de quão repetitivos sejam seus prompts.
As restrições de capacidade da seção de abertura ainda podem sobrepor a escolha: modelos que geram uma imagem por chamada, limites mínimos e máximos de resolução, restrições de residência de dados e quais parâmetros (seed, negative_prompt, guidance_scale) um modelo expõe. Escolha pelo custo e depois confirme se a capacidade atende à necessidade.
Por que você pode confiar nesses números
Esses valores vêm de usage real contra as tarifas de lista de cada fornecedor, não de estimativas. A cobrança de imagens em nosso gateway é sem sessão: ela só é liquidada em um 2xx (uma geração com falha nunca é cobrada), verifica previamente o custo máximo antes de qualquer gasto, e cobra uma resposta sem usage pelo valor máximo em vez de silenciosamente $0. O princípio é o mesmo que aplicamos em todo lugar: confie no custo, não em um valor que o fornecedor lhe entrega. É o método que usamos para auditar se um gateway mente sobre cache.
Conclusão
A geração de imagens parece apenas mais um endpoint, mas a unidade de cobrança mudou. Para texto para imagem, o fator determinante não é o prompt (sem cache, sem compartilhamento em lote) nem a resolução. É a qualidade: gpt-image é o mais barato na qualidade baixa, o preço fixo por imagem (seedream / qwen) vence na qualidade média e alta, com o ponto de cruzamento próximo a 1.000 tokens de saída. Defina a qualidade deliberadamente, escolha o modelo adequado a ela e verifique o custo. Quando você passar de geração para edição, alimentando uma imagem de referência, refaça os cálculos, pois a imagem de entrada se torna o custo.
FAQ
O cache de prompt reduz o custo de geração de imagens?
Não. A geração é stateless: o objeto usage não possui campos de cache, e o processamento em lote cobra o prompt novamente por imagem. O custo está na imagem de saída, não no texto.
Por token ou por imagem, qual é mais barato?
Depende da qualidade. Para qualidade baixa ou rascunho, um modelo com ajuste de quality como gpt-image (cerca de $0,006–0,012). Para qualidade média ou alta, o preço fixo por imagem como seedream/qwen ($0,03–0,035), pois a cobrança por token escapa do controle. Para image-to-image a resposta pende ainda mais para o preço fixo: esses modelos incluem imagens de referência gratuitamente, enquanto o modelo por token cobra cerca de 1.025 tokens adicionais por cada uma.
Fontes
- OpenAI: Image generation API
- OpenAI: gpt-image per-token pricing
- Google: Gemini API pricing (image output tokens)
- OpenAI: Prompt caching (why it does not apply to image generation)
Todas verificadas em 2026-06-19. Não constitui aconselhamento financeiro; verifique os preços atuais antes de utilizá-los como referência.