Was Ihre Bildgenerierungsrechnung wirklich treibt

19. Juni 2026 · image-generation · billing · llm-gateway · cost

Inhalt

Wie sich Bildmodelle unterscheiden
Wir haben es gemessen
Die Entscheidungsregel
Warum man diesen Zahlen vertrauen kann
Fazit
FAQ
Quellen

Wir haben Bildgenerierung zu einem Gateway hinzugefügt, das für Text-LLMs entwickelt wurde, und gemessen, was die Kosten über vier Variablen hinweg treibt: Modell, Auflösung, Bildanzahl und Qualität. Der größte Hebel ist die Qualität – ein Parameter, den die meisten Bild-APIs bereitstellen und den die meisten Aufrufer auf dem Standardwert belassen. Auflösung, Prompt-Caching und Batching spielen eine weit geringere Rolle, als die meisten erwarten.

Wie sich Bildmodelle unterscheiden

Bildmodelle sind keine eins-zu-eins-Austauschpartner füreinander. Sie unterscheiden sich in mehreren Dimensionen, und nur eine davon (die Abrechnungsstruktur) betrifft den Preis. Ein Überblick über den aktuellen Katalog:

Familie	Abrechnung	`quality`-Regler	Batch `n>1`	Auflösung
`gpt-image` (OpenAI)	pro Token	✓ `low`/`med`/`high`	✓	bis ca. 2K
`gemini-image` (Google)	pro Token	✗	✗ 1/Aufruf	1K (`gemini-3`: bis 4K)
`qwen-image` / `wan2.7` (Alibaba)	pauschal/Bild	✗	✓	512²–2048²
`seedream` (BytePlus)	pauschal/Bild	✗	✗ 1/Aufruf	≥1920² (4.5/5.0)

Die Dimensionen, die problematisch werden, wenn man annimmt, ein Modell verhält sich wie ein anderes:

Abrechnungsstruktur. Pro Token (gpt-image, gemini) oder pauschal pro Bild (qwen, wan, seedream). Das ist die Dimension, die Ihre Rechnung bestimmt, und sie ist Gegenstand des nächsten Abschnitts.
Der quality-Regler. Nur gpt-image verfügt darüber (low/medium/high). Gemini ändert die Wiedergabetreue über Modell-Tiers (flash bis pro) oder image_size; Pauschalmodelle haben keinen solchen Regler. Dieser eine Regler schwankt die Rechnung um etwa das 36-Fache, weshalb er der wichtigste Kostenhebel ist – dazu mehr weiter unten.
Batch (n>1) ist nicht universell. gpt-image, qwen und wan liefern mehrere Bilder pro Aufruf zurück. Jedes Gemini- und Seedream-Bildmodell ist auf ein Bild pro Aufruf beschränkt: n=2 gibt einen 400-Fehler zurück, sodass Sie N Anfragen stellen und den Batch selbst orchestrieren müssen.
Auflösungsgrenzen wirken in beide Richtungen. gemini-2.5-flash-image ist auf 1K (1 MP) begrenzt, während gemini-3 2K/4K erreicht (und seine Rechnung von 1K auf 4K ungefähr verdoppelt). Seedream 4.5/5.0 erzwingt eine Untergrenze von etwa 1920² und lehnt alles Kleinere ab. qwen-image bewegt sich in einem Band von 512²–2048². Höhere Auflösung ist nicht immer verfügbar, und die Auflösung zur Kosteneinsparung zu reduzieren ist nicht immer erlaubt.
Steuerungsregler und Bild-zu-Bild unterscheiden sich. Nur manche Modelle akzeptieren seed, negative_prompt oder guidance_scale, und das Referenzbildlimit für die Bearbeitung reicht von 3 (gemini-2.5) bis 16 (gpt-image).

Der quality-Regler hat eine nicht offensichtliche Eigenschaft. Bei gpt-image ist ein Ausgabe-Token eine Abrechnungseinheit, kein Maß für die erhaltene Datei. OpenAI weist die Anzahl aus einer veröffentlichten Ratentabelle pro (quality × size) zu (272 / 1.056 / 4.160 Token für low / medium / high bei 1024² auf gpt-image-1), sodass die Anzahl durch quality festgelegt wird und nicht aus den zurückgegebenen Bytes abgeleitet wird. Wir haben es überprüft: Derselbe Prompt bei 1024² über alle drei Tiers hinweg erzeugte identische 1024×1024-PNGs mit ungefähr derselben Dateigröße (etwa 0,9 MB), wurde jedoch mit 196, 1.756 und 7.024 Token abgerechnet. Gleiche Auflösung, gleiche Bytegröße, 36-fache Kosten. Sie zahlen für den Renderaufwand, nicht für Pixel – weshalb Sie usage auslesen sollten, anstatt die Ausgabe zu schätzen.

Eine Fähigkeit, die keines dieser Modelle besitzt, ist Prompt-Caching – üblicherweise die erste Idee zur Kosteneinsparung, nach der die Leute greifen. Bildgenerierung ist zustandslos: Es gibt keine Konversation oder KV-Zustand, der wiederverwendet werden könnte, das usage-Objekt enthält keine Cache-Felder, und (wie wir weiter unten messen) teilt Batching den Prompt ebenfalls nicht. Caching ist eine Chat-Funktion, keine Bildfunktion – was eine verbreitete Annahme zur Kostensenkung bei Bildern ausschließt.

Wir haben es gemessen

Gleicher E-Commerce-typischer Produkt-Prompt, echte Generierungen durch das Gateway, mit Kosten berechnet aus den zurückgegebenen usage-Daten anhand der veröffentlichten Tarife jedes Modells. Fünf Erkenntnisse, jede aus einem separaten Durchlauf.

1. Das Bild ist der Kostenfaktor, nicht der Prompt. Bei Text-to-Image (ein Prompt rein, ein Bild raus) entfallen 97–100 % der Rechnung auf Output-Tokens: Eine 1024²-Generierung mit gpt-image-2 verbraucht 21 Input- und 196 Output-Tokens (etwa $0,0001 plus $0,0059), und gemini-2.5-flash-image benötigt 10 Input-Tokens. Der geschriebene Prompt ist ein Rundungsfehler – aber nur, weil er Text ist. Wird stattdessen ein Bild eingereicht (Image-to-Image, z. B. „Mach diese Tasse blau”), tokenisiert der Input groß:

Modell	t2i Input	i2i Input (1 Referenz)	Output
`gpt-image-2` (low)	21 Tok	1.043 Tok	196 Tok
`gemini-2.5-flash-image`	10 Tok	1.297 Tok	1.290 Tok

Der Input springt um das 50- bis 130-Fache, und er skaliert linear: Jede zusätzliche Referenz fügt bei gpt-image-2 etwa 1.025 Tokens hinzu (gemessen bei 1, 2 und 3 Referenzen: 1.043, 2.068 und 3.093). Bei niedriger Qualität übersteigen diese Input-Tokens die generierten Output-Tokens im Verhältnis fünf zu eins. Das Prinzip gilt in beide Richtungen: Ein Bild ist der Kostenfaktor – egal ob man es generiert oder liefert –, der Prompt hingegen nie. Der Rest dieses Artikels bleibt bei Text-to-Image; die vollständige Image-to-Image-Ökonomie ist ein eigenes Folgethema.

2. Die Modellwahl ist ein 6×-Hebel. Identische 1024²-Anfrage, Standardqualität:

Modell	Abrechnung	Kosten / Bild
`gpt-image-2`	Token · `quality`-Regler	$0,0060
`gpt-image-1-mini`	Token · `quality`-Regler	$0,0085
`seedream-4-0`	Pauschal pro Anfrage	$0,030
`qwen-image-2.0`	Pauschal pro Anfrage	$0,035
`gemini-2.5-flash-image`	Token · kein `quality`-Regler	$0,0387

Eine 6,4-fache Spanne zwischen dem günstigsten und dem teuersten Weg, ausschließlich getrieben durch die Anzahl der Output-Tokens, die jedes Modell erzeugt.

3. Die Auflösung verändert kaum etwas. Bei einem Sweep von gpt-image-2 von 1024² auf 2048² blieben die Kosten pro Bild annähernd gleich ($0,0060 bis $0,0121); Output-Tokens sind nicht proportional zu Pixeln. gemini-2.5-flash-image lieferte unabhängig von der angeforderten Größe stets dieselben 1.290 Tokens, da es nur 1K unterstützt und size lediglich das Seitenverhältnis ändert. (Die gemini-3-Bild-Tiers berücksichtigen image_size und verdoppeln die Kosten grob von 1K auf 4K, aber 2.5-flash-image, das hier betrachtete Modell, tut dies nicht.) Pauschalmodelle pro Bild sind per Definition auflösungsunabhängig. Bislang scheint das Token-basierte Modell schwer zu schlagen zu sein.

4. Qualität ist der Wendepunkt. Sweep über gpt-image-2 durch die Qualitätsstufen:

quality	1024²	2048²
low	$0,0060 (196 Tok)	$0,0121 (397 Tok)
medium	$0,053 (1.756 Tok)	$0,107 (3.568 Tok)
high	$0,211 (7.024 Tok)	$0,428 (14.272 Tok)

Output-Tokens skalieren von low zu medium etwa um das 9-Fache und von low zu high etwa um das 36-Fache. Bei niedriger Qualität ist das Token-basierte Modell die günstigste Option; bei mittlerer oder hoher Qualität überschreitet es den Pauschalpreis pro Bild ($0,03–0,035). Der Wendepunkt liegt genau dort, wo die Arithmetik ihn platziert, bei etwa 1.000 Output-Tokens ($0,03 ÷ $30/M): low liegt darunter, medium darüber. Dies korrigiert auch eine frühere Schlussfolgerung von uns. „Token-basiert ist immer am günstigsten” war ein Artefakt des Testens bei der standardmäßigen niedrigen Qualität.

Derselbe Prompt, gerendert von gpt-image-2 bei niedriger, mittlerer und hoher Qualität: drei gleich scharfe 1024²-Produktfotos, beschriftet mit 196 / 1.756 / 7.024 Output-Tokens und $0,006 / $0,053 / $0,215.

Gleicher Prompt, gpt-image-2, 1024². low / medium / high berechnen 196 / 1.756 / 7.024 Output-Tokens, also $0,006 / $0,053 / $0,215: eine 36-fache Spanne bei identischer Auflösung. Für ein sauberes Produktfoto wie dieses sind die drei kaum zu unterscheiden, sodass die günstigste Stufe oft ausreicht. Setze quality passend zur Aufgabe, statt standardmäßig high zu verwenden.

5. Ein Prompt lässt sich nicht über mehrere Bilder teilen. Das Generieren von n Bildern in einem einzigen Aufruf amortisiert den Prompt nicht. gpt-image-2 berechnet ihn N-mal: Die Input-Tokens stiegen von 28 auf 112 bei n=4, und ein langer Marken-Prompt stieg von 499 auf 1.996. Die Kosten pro Bild waren bei n=1 und n=4 identisch. Da es auch kein Caching gibt, existiert kein Mechanismus zur Prompt-Kostenteilung bei der Bildgenerierung. Man zahlt pro Output-Bild, und der Prompt wird jedes Mal neu berechnet.

Die Entscheidungsregel

Bei Text-zu-Bild kommt es auf die Qualität an, nicht auf die Dinge, die man gemeinhin annimmt:

Niedrige / Entwurfs- / Vorschauqualität: ein Token-mit-Qualität-Modell (gpt-image, ca. $0,006–0,012). Am günstigsten bei jeder Auflösung bis etwa 2K.
Mittlere / hohe Qualität: Pauschalpreis pro Anfrage (seedream / qwen, $0,03–0,035). Die Token-basierte Abrechnung läuft davon ($0,05–0,43 in unserem Test), und der Pauschalpreis ist sowohl günstiger als auch qualitätsunabhängig.
gemini (ca. $0,039 bei Standard-1K) ist selten die kostenoptimale Wahl. Es wird von gpt-image bei niedriger Qualität und von per-Anfrage-Pauschalpreisen bei mittlerer und hoher Qualität unterboten. Es hat keinen quality-Regler; man würde seinen Pro-Tarif oder eine höhere image_size für die Ausgabequalität wählen, nicht wegen des Preises.
Auflösungsänderungen verschieben die Kosten um etwa 2× innerhalb einer Qualitätsstufe, nicht genug, um die Wahl umzukehren. Die Qualität kippt sie.
n>1, Caching und Batching reduzieren niemals die Kosten pro Bild. Es gibt nichts zu teilen.
Bild-zu-Bild: standardmäßig auf Pauschalpreis pro Bild setzen. Ein Referenzbild ist eine Eingabe, und nur Token-basierte Modelle berechnen dafür einen Aufpreis (ca. 1.025 Token pro Stück); Pauschalmodelle schließen es kostenlos ein. Für die Bearbeitung gewinnen seedream / qwen in der Regel. gpt-image bleibt nur bei Bearbeitungen mit niedriger Qualität und wenigen Referenzen günstiger (etwa 5 überschreiten den Pauschalpreis) und verliert, sobald Qualität oder Referenzanzahl steigt.

E-Commerce ist das deutlichste Beispiel. Angenommen, man generiert Produktfotos, indem man für jeden Artikel im Katalog denselben langen Marken-Prompt sendet, und geht davon aus, dass das Caching dieses wiederholten Prompts Geld spart. Das scheitert aus zwei Gründen: Der Prompt war nie der Kostentreiber (das Bild ist es), und es gibt ohnehin kein Caching für die Generierung. Da echte Produktbilder mittlerer Qualität oder höher sind, ist die richtige Wahl ein Pauschalmodell pro Bild, das unabhängig davon, wie repetitiv die Prompts sind, sowohl günstiger als auch besser planbar ist.

Die Fähigkeitsgrenzen aus dem Eröffnungsabschnitt können die Wahl dennoch außer Kraft setzen: Modelle mit einem Bild pro Aufruf, Auflösungs-Unter- und -Obergrenzen, Datenhaltungsanforderungen und welche Regler (seed, negative_prompt, guidance_scale) ein Modell bereitstellt. Erst nach Kosten auswählen, dann bestätigen, dass die Fähigkeiten passen.

Warum man diesen Zahlen vertrauen kann

Diese Zahlen stammen aus echten usage-Daten gegen die Listenpreise der jeweiligen Anbieter, nicht aus Schätzungen. Die Bildabrechnung auf unserem Gateway ist sitzungslos: Sie wird nur bei einem 2xx abgerechnet (eine fehlgeschlagene Generierung wird nie berechnet), prüft vorab die Worst-Case-Kosten vor jeder Ausgabe und rechnet eine Antwort ohne usage zum Höchstpreis ab, anstatt sie stillschweigend mit $0 zu verbuchen. Das Prinzip ist dasselbe, das wir überall anwenden: den Kosten vertrauen, nicht einer Zahl, die der Anbieter liefert. Es ist die Methode, die wir verwendet haben, um zu prüfen, ob ein Gateway beim Cache lügt.

Fazit

Bildgenerierung sieht aus wie ein weiterer Endpunkt, aber die Abrechnungseinheit hat sich geändert. Bei Text-zu-Bild ist der Hebel nicht der Prompt (kein Caching, kein Batch-Sharing) oder die Auflösung. Es ist die Qualität: gpt-image ist bei niedriger Qualität am günstigsten, per-Bild-Pauschal (seedream / qwen) gewinnt bei mittlerer und hoher Qualität, mit dem Kreuzungspunkt nahe 1.000 Ausgabe-Token. Qualität bewusst festlegen, das Modell darauf abstimmen und die Kosten prüfen. Beim Wechsel von der Generierung zur Bearbeitung mit einem Referenzbild die Rechnung neu aufmachen, denn das Eingabebild wird zum Kostentreiber.

FAQ

Reduziert Prompt-Caching die Kosten der Bildgenerierung? Nein. Die Generierung ist zustandslos: Das usage-Objekt hat keine Cache-Felder, und beim Batching wird der Prompt pro Bild erneut berechnet. Die Kosten entstehen durch das Ausgabebild, nicht durch den Text.

Pro Token oder pro Bild – was ist günstiger? Das hängt von der Qualität ab. Bei niedriger oder Entwurfsqualität ist ein Modell mit quality-Regler wie gpt-image günstiger (ca. $0,006–0,012). Bei mittlerer oder hoher Qualität ist ein Pauschalpreis pro Bild wie bei seedream/qwen ($0,03–0,035) vorteilhafter, da die tokenbasierte Abrechnung schnell teuer wird. Bei Image-to-Image verschiebt sich das Verhältnis noch weiter zugunsten des Pauschalpreises: Referenzbilder sind dort kostenlos enthalten, während bei der tokenbasierten Abrechnung pro Referenzbild etwa 1.025 Token zusätzlich berechnet werden.

Quellen

Alle Quellen geprüft am 2026-06-19. Keine Finanzberatung; bitte aktuelle Preise vor der Nutzung verifizieren.

← Zurück zum Blog