Qué Impulsa Realmente tu Factura de Generación de Imágenes

Contenido
  1. En qué se diferencian los modelos de imagen
  2. Lo medimos
  3. La regla de decisión
  4. Por qué puedes confiar en estos números
  5. Conclusión
  6. Preguntas frecuentes
  7. Fuentes

Añadimos generación de imágenes a un gateway construido para LLMs de texto y medimos qué impulsa el coste a través de cuatro variables: modelo, resolución, número de imágenes y calidad. El mayor factor es la calidad, un parámetro que la mayoría de las APIs de imágenes exponen y que la mayoría de los usuarios dejan en el valor predeterminado. La resolución, el caché de prompts y el procesamiento por lotes importan mucho menos de lo que la gente espera.


En qué se diferencian los modelos de imagen

Los modelos de imagen no son intercambiables entre sí. Divergen en varios ejes, y solo uno de ellos (la forma de facturación) tiene que ver con el precio. El catálogo activo de un vistazo:

FamiliaFacturaciónAjuste qualityLote n>1Resolución
gpt-image (OpenAI)por tokenlow/med/highhasta ≈2K
gemini-image (Google)por token✗ 1/llamada1K (gemini-3: hasta 4K)
qwen-image / wan2.7 (Alibaba)fijo/imagen512²–2048²
seedream (BytePlus)fijo/imagen✗ 1/llamada≥1920² (4.5/5.0)

Los ejes que generan problemas si asumes que un modelo se comporta como otro:

  • Forma de facturación. Por token (gpt-image, gemini) o fijo por imagen (qwen, wan, seedream). Este es el eje que determina tu factura, y es el tema de la siguiente sección.
  • El ajuste quality. Solo gpt-image lo tiene (low/medium/high). Gemini cambia la fidelidad por nivel de modelo (flash a pro) o image_size; los modelos de tarifa fija no tienen ese dial. Ese único ajuste hace oscilar la factura aproximadamente 36×, por lo que es el principal factor de coste, tratado a continuación.
  • El lote (n>1) no es universal. gpt-image, qwen y wan devuelven varias imágenes por llamada. Todos los modelos de imagen de Gemini y Seedream son de una imagen por llamada: n=2 devuelve un 400, por lo que debes emitir N solicitudes y orquestar el lote tú mismo.
  • Los límites de resolución actúan en ambas direcciones. gemini-2.5-flash-image tiene un tope de 1K (1 MP), mientras que gemini-3 alcanza 2K/4K (y su factura se duplica aproximadamente de 1K a 4K). Seedream 4.5/5.0 impone un mínimo de aproximadamente 1920² y rechaza cualquier valor inferior. qwen-image opera en una banda de 512²–2048². Una resolución más alta no siempre está disponible, y reducir la resolución para ahorrar dinero no siempre está permitido.
  • Los parámetros de control y la imagen a imagen difieren. Solo algunos modelos aceptan seed, negative_prompt o guidance_scale, y el límite de imágenes de referencia para edición va de 3 (gemini-2.5) a 16 (gpt-image).

El ajuste quality tiene una propiedad no obvia. Para gpt-image, un token de salida es una unidad de facturación, no una medida del archivo que recibes. OpenAI asigna el recuento a partir de una tabla de tarifas publicada por (quality × size) (272 / 1.056 / 4.160 tokens para low / medium / high a 1024² en gpt-image-1), por lo que el recuento lo establece quality, no se deriva de los bytes devueltos. Lo comprobamos: el mismo prompt a 1024² en los tres niveles produjo PNGs de 1024×1024 idénticos con aproximadamente el mismo tamaño de archivo (alrededor de 0,9 MB), pero facturó 196, 1.756 y 7.024 tokens. Misma resolución, mismo tamaño en bytes, 36× el coste. Pagas por el esfuerzo de renderizado, no por los píxeles, razón por la cual lees usage en lugar de estimar visualmente la salida.

Una capacidad que ninguno de estos modelos tiene es el caché de prompts, que suele ser la primera idea de ahorro de costes a la que recurre la gente. La generación de imágenes es sin estado: no hay conversación ni estado KV que reutilizar, el objeto usage no lleva campos de caché y (como medimos a continuación) el procesamiento por lotes tampoco comparte el prompt. El caché es una característica del chat, no de las imágenes, lo que descarta una suposición común sobre cómo reducir el coste de las imágenes.


Lo medimos

El mismo prompt de producto estilo e-commerce, generaciones reales a través del gateway, con el coste calculado a partir del usage devuelto según las tarifas publicadas de cada modelo. Cinco conclusiones, cada una de un análisis independiente.

1. La imagen es el coste, no el prompt. En text-to-image (un prompt de entrada, una imagen de salida), la factura corresponde al 97–100% de tokens de salida: una generación de gpt-image-2 a 1024² consume 21 tokens de entrada y 196 de salida (aproximadamente $0,0001 más $0,0059), y gemini-2.5-flash-image toma 10 de entrada. El prompt que escribes es un error de redondeo, pero solo porque es texto. Si introduces una imagen en lugar de texto (image-to-image, como “pon esta taza en azul”), la entrada se tokeniza de forma considerable:

ModeloEntrada t2iEntrada i2i (1 ref)Salida
gpt-image-2 (low)21 tok1.043 tok196 tok
gemini-2.5-flash-image10 tok1.297 tok1.290 tok

La entrada se multiplica entre 50 y 130×, y escala de forma lineal: cada referencia adicional añade aproximadamente 1.025 tokens en gpt-image-2 (1, 2 y 3 referencias medidas en 1.043, 2.068 y 3.093). En calidad baja, esos tokens de entrada superan en cinco a uno a los tokens de salida generados. El principio se cumple en ambos casos: una imagen es el coste, tanto si la generas como si la proporcionas, y el prompt nunca lo es. El resto de este artículo se centra en text-to-image; la economía más completa de image-to-image merece su propio seguimiento.

2. La elección del modelo es una palanca de 6×. La misma solicitud a 1024², calidad por defecto:

ModeloFacturaciónCoste / imagen
gpt-image-2token · control quality$0,0060
gpt-image-1-minitoken · control quality$0,0085
seedream-4-0tarifa plana por solicitud$0,030
qwen-image-2.0tarifa plana por solicitud$0,035
gemini-2.5-flash-imagetoken · sin control quality$0,0387

Una diferencia de 6,4× entre la opción más barata y la más cara, determinada únicamente por la cantidad de tokens de salida que emite cada modelo.

3. La resolución apenas lo mueve. Al variar gpt-image-2 de 1024² a 2048², el coste por imagen se mantuvo prácticamente igual ($0,0060 a $0,0121); los tokens de salida no son proporcionales a los píxeles. gemini-2.5-flash-image devolvió los mismos 1.290 tokens independientemente del tamaño solicitado, porque solo admite 1K y size únicamente cambia la relación de aspecto. (Los niveles de imagen de gemini-3 sí respetan image_size, aproximadamente duplicando el coste de 1K a 4K, pero 2.5-flash-image, el modelo que costeamos aquí, no lo hace.) Los modelos de tarifa plana por imagen son independientes de la resolución por definición. Hasta ahora, el modelo por token parece difícil de superar.

4. La calidad es el punto de cruce. Variando gpt-image-2 entre niveles de calidad:

quality1024²2048²
low$0,0060 (196 tok)$0,0121 (397 tok)
medium$0,053 (1.756 tok)$0,107 (3.568 tok)
high$0,211 (7.024 tok)$0,428 (14.272 tok)

Los tokens de salida escalan aproximadamente 9× de low a medium y unas 36× de low a high. En calidad baja, el modelo por token es la opción más económica; en calidad media o alta supera el precio plano por imagen ($0,03–0,035). El punto de cruce se sitúa donde la aritmética lo indica, alrededor de 1.000 tokens de salida ($0,03 ÷ $30/M): low está por debajo, medium está por encima. Esto también corrige una conclusión anterior nuestra. “El modelo por token siempre es el más barato” era un artefacto de las pruebas realizadas con la calidad baja por defecto.

El mismo prompt renderizado por gpt-image-2 en calidad low, medium y high: tres fotos de producto igualmente nítidas a 1024² etiquetadas con 196 / 1.756 / 7.024 tokens de salida y $0,006 / $0,053 / $0,215.

El mismo prompt, gpt-image-2, 1024². low / medium / high facturan 196 / 1.756 / 7.024 tokens de salida, o $0,006 / $0,053 / $0,215: una diferencia de 36× a resolución idéntica. Para una foto de producto limpia como esta, las tres son difíciles de distinguir, por lo que el nivel más económico suele ser suficiente. Ajusta quality según la tarea en lugar de usar high por defecto.

5. No puedes compartir un prompt entre imágenes. Generar n imágenes en una sola llamada no amortiza el prompt. gpt-image-2 lo factura N veces: los tokens de entrada pasaron de 28 a 112 con n=4, y un prompt de marca largo pasó de 499 a 1.996. El coste por imagen fue idéntico con n=1 y n=4. Sin ningún mecanismo de caché tampoco, no existe ningún mecanismo de reparto del coste del prompt para la generación de imágenes. Pagas por cada imagen de salida, y el prompt se factura de nuevo cada vez.


La regla de decisión

Para texto a imagen, todo se reduce a la calidad, no a lo que la gente suele asumir:

  • Calidad baja / borrador / miniatura: un modelo de tokens con calidad (gpt-image, alrededor de $0.006–0.012). El más barato a cualquier resolución hasta aproximadamente 2K.
  • Calidad media / alta: tarifa plana por solicitud (seedream / qwen, $0.03–0.035). La factura por tokens se dispara ($0.05–0.43 en nuestra evaluación), y la tarifa plana es a la vez más barata e independiente de la calidad.
  • gemini (alrededor de $0.039 con 1K por defecto) rara vez es la opción más económica. gpt-image lo supera en calidad baja, y la tarifa plana por solicitud lo supera en calidad media y alta. No tiene control de quality; elegirías su nivel Pro o un image_size mayor para mejorar la calidad de salida, no por precio.
  • Los cambios de resolución mueven el costo aproximadamente 2× dentro de un nivel de calidad, no lo suficiente para cambiar la elección. La calidad sí la cambia.
  • n>1, el caché y el procesamiento por lotes nunca reducen el costo por imagen. No hay nada que compartir.
  • Imagen a imagen: usa tarifa plana por imagen por defecto. Una imagen de referencia es una entrada, y solo los modelos por tokens la cobran como extra (alrededor de 1,025 tokens cada una); los modelos de tarifa plana la incluyen gratis. Para edición, seedream / qwen suelen ganar. gpt-image solo es más barato para ediciones de baja calidad con pocas referencias (alrededor de 5 cruza el precio plano), y pierde una vez que sube la calidad o el número de referencias.

El comercio electrónico es el ejemplo más claro. Supongamos que generas fotos de productos enviando el mismo prompt de marca largo para cada artículo del catálogo, y asumes que cachear ese prompt repetido ahorrará dinero. Eso falla por dos razones: el prompt nunca fue el costo (la imagen sí lo es), y de todas formas no hay caché para la generación. Dado que las imágenes de productos reales son de calidad media o superior, la elección correcta es un modelo de tarifa plana por imagen, que es a la vez más barato y más predecible independientemente de cuán repetitivos sean tus prompts.

Las restricciones de capacidad de la sección inicial aún pueden anular la elección: modelos de una imagen por llamada, límites mínimos y máximos de resolución, restricciones de residencia de datos, y qué controles (seed, negative_prompt, guidance_scale) expone cada modelo. Elige por costo, luego confirma que la capacidad se ajusta.


Por qué puedes confiar en estos números

Estas cifras provienen de usage real contra las tarifas de lista de cada proveedor, no de estimaciones. La facturación de imágenes en nuestro gateway no tiene sesión: se liquida solo con un 2xx (una generación fallida nunca se cobra), verifica previamente el costo en el peor caso antes de cualquier gasto, y factura una respuesta con usage faltante al techo en lugar de silenciosamente $0. El principio es el mismo que aplicamos en todas partes: confía en el costo, no en una cifra que te da el proveedor. Es el método que usamos para auditar si un gateway miente sobre el caché.


Conclusión

La generación de imágenes parece solo otro endpoint, pero la unidad de facturación cambió. Para texto a imagen, la palanca no es el prompt (sin caché, sin compartir en lotes) ni la resolución. Es la calidad: gpt-image es el más barato en baja calidad, la tarifa plana por imagen (seedream / qwen) gana en calidad media y alta, con el punto de cruce cerca de los 1,000 tokens de salida. Establece la calidad deliberadamente, ajusta el modelo a ella y verifica el costo. Cuando pases de generar a editar, alimentando una imagen de referencia, vuelve a hacer los cálculos, porque la imagen de entrada se convierte en el costo.


Preguntas frecuentes

¿El almacenamiento en caché de prompts reduce el costo de generación de imágenes? No. La generación no tiene estado: el objeto usage no tiene campos de caché, y el procesamiento por lotes vuelve a cobrar el prompt por cada imagen. El costo corresponde a la imagen de salida, no al texto.

¿Por token o por imagen, cuál es más barato? Depende de la calidad. Para calidad baja o borrador, un modelo con control de quality como gpt-image (aproximadamente $0.006–0.012). Para calidad media o alta, precio fijo por imagen como seedream/qwen ($0.03–0.035), porque la factura por token se dispara. Para imagen a imagen la respuesta se inclina aún más hacia el precio fijo: estos modelos incluyen las imágenes de referencia de forma gratuita, mientras que el cobro por token añade un recargo de aproximadamente 1,025 tokens por cada una.


Fuentes

Todo verificado el 2026-06-19. No constituye asesoramiento financiero; verifique los precios actuales antes de basarse en ellos.

← Volver al blog