Was ein einfacher Transkriptionstest verraten kann – und was nicht

25. Juni 2026 · transcription · asr · speech-to-text · cost

Inhalt

Was dieser Test ist – und was nicht
Zwei Modelltypen, drei Request-Modi
Wie Transkription abgerechnet wird
Kosten
Genauigkeit und Sprachabdeckung
Streaming-Ausgabe
Wiederholtes Audio cachen
Was du zuerst prüfst und was du selbst testen musst
Fazit
Quellen

Synthorai transkribiert jetzt Audio – mit dreizehn Modellen aus zwei Familien hinter einem einzigen Endpoint.

Hinter diesem einen Endpoint steckt viel Arbeit, denn nativ haben diese Modelle kaum etwas gemeinsam. whisper-1 nimmt einen Multipart-Datei-Upload entgegen und liefert {text} zurück. gpt-4o-transcribe nutzt denselben Upload, ergänzt aber den Token-Verbrauch. Gemini ist überhaupt keine Transkriptions-API: Du base64-kodierst das Audio in einen JSON-generateContent-Request und gräbst das Transkript aus candidates[0].content.parts[].text heraus. ByteDances seed-asr spricht das BytePlus-AUC-Protokoll, und Googles chirp-Modelle sind Cloud-Speech-to-Text-Recognizer, die man per OAuth erreicht.

Andere Endpoints, andere Auth, andere Response-Formen, jeweils eine Integration mehr. Über das Gateway ist es ein OpenAI-kompatibler Aufruf: Tausch gpt-4o-mini-transcribe gegen gemini-2.5-flash-lite oder seed-asr-bigmodel, und am restlichen Code ändert sich nichts.

Der Aufruf läuft über den OpenAI-kompatiblen Transkriptions-Endpoint, lässt sich also direkt einsetzen, wenn du schon Whisper nutzt:

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite

from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

Das Transkript kommt in text zurück, die abgerechneten Kosten stehen im Response-Header x-total-cost-usd.

Wir haben alle dreizehn durch denselben einfachen Test geschickt. Was dieser Test ist, prägt jede Zahl weiter unten.

Was dieser Test ist – und was nicht

Wir haben Alltagstexte ohne Eigennamen (ein Morgen, das Wetter, ein Gang zum Markt) mit einer Standard-Text-to-Speech-Stimme in den fünf meistgesprochenen Sprachen der Welt erzeugt und jeden Clip dann durch alle dreizehn Modelle transkribiert. Jeder Clip dauert etwa 12 bis 15 Sekunden, ungefähr 40 Wörter normal gesprochene Sprache ohne lange Pausen, kodiert als 16 kHz Mono 16-bit PCM WAV (256 kbps, rund 2 MB pro Minute). Der Text ist die Ground Truth, und die Längen sind exakt.

Das ist bewusst ein einfacher Fall: sauberes, vorgelesenes Audio mit nur einem Sprecher, ohne Akzente, Störgeräusche oder Fachjargon. Damit eignet es sich gut für all das, was nicht davon abhängt, wie schwierig das Audio ist. Es misst Kosten, Latenz, welche Sprachen ein Modell überhaupt akzeptiert und ob es streamen kann – das sind stabile Fakten.

Es ist kein Qualitäts-Benchmark. Echte Aufnahmen mit Akzenten, Hintergrundrauschen, Fachvokabular, überlappenden Sprechern und einer Stunde Laufzeit trennen diese Modelle auf eine Weise, wie saubere Sprache es nie tut, und nichts hier sagt das voraus. Lies die Genauigkeitswerte als Untergrenze, nicht als Rangliste, und nimm die Ergebnisse zu Kosten, Abdeckung und Streaming als die Basis, auf die du dich tatsächlich verlassen kannst.

Zwei Modelltypen, drei Request-Modi

Die dreizehn Modelle teilen sich in zwei Arten auf:

Native multimodale Modelle (sechs Stück, Googles Gemini-Familie: gemini-2.5-flash-lite, gemini-3.1-flash-lite-preview, gemini-2.5-flash, gemini-3-flash-preview, gemini-3.5-flash, gemini-2.5-pro). Allgemeine Audio-und-Text-Modelle, die transkribieren, weil sie nun mal multimodal sind.
Dedizierte ASR-Modelle (sieben Stück: OpenAIs whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe; ByteDances seed-asr-bigmodel; Alibabas qwen3-asr-flash; Googles chirp-2 und chirp-3). Speziell für Sprache gebaut.

Und drei Wege, das Audio zu senden:

Datei rein, Batch raus: komplette Aufnahme hochladen, gesamtes Transkript in einer Response zurückbekommen. Jedes Modell kann das.
Datei rein, gestreamter Text raus: derselbe Upload, aber das Transkript kommt während der Erzeugung per SSE zurück. Manche Modelle können das, andere arbeiten nur im Batch-Modus.
Audio-Stream rein, Text-Stream raus: Echtzeit-Erkennung eines laufenden Mikrofons oder Anrufs. Noch in Entwicklung, noch nicht verfügbar — alles Folgende betrifft also die ersten beiden Modi.

Wie Transkription abgerechnet wird

Es gibt zwei Abrechnungsformen. Pro Audio-Minute (whisper-1, seed-asr, qwen3-asr-flash, die Chirp-Modelle): du zahlst für die tatsächliche Länge der Aufnahme, egal was drinsteckt. Pro Token (die gpt-4o- und Gemini-Modelle): Audio wird zu einer festen Rate tokenisiert, und du zahlst für diese Input-Token plus die Output-Token des Transkripts. Stille ist damit billiger als dichte Sprache.

Bei der Token-Abrechnung gibt es eine Falle: Die angegebene Input-Rate gilt für Text, aber Audio wird höher berechnet (gpt-4o-mini-transcribe listet $1.25/M Input, rechnet Audio aber mit $3/M ab). Wer mit der Textrate kalkuliert, schätzt zu niedrig. Das Gateway liefert die tatsächlichen Kosten im Header x-total-cost-usd — lies den aus, statt von einer Preisseite zu raten.

Kosten

Hier liefert der Test eindeutige Zahlen, und genau hier sind die Unterschiede am größten. Kosten pro Minute, aus dem abgerechneten Header:

Modell	Typ	Kosten / Min	Latenz	Streams
`gemini-2.5-flash-lite`	multimodal	$0.0006	≈4s	chunks
`gemini-3.1-flash-lite-preview`	multimodal	$0.0016	≈3s	chunks
`seed-asr-bigmodel`	dedicated	$0.0020	≈10s	no
`qwen3-asr-flash`	dedicated	$0.0021	≈3s	no
`gemini-2.5-flash`	multimodal	$0.0026	≈2s	chunks
`gpt-4o-mini-transcribe`	dedicated	$0.0031	≈3s	token-by-token
`gemini-3-flash-preview`	multimodal	$0.0035	≈4s	chunks
`whisper-1`	dedicated	$0.0060	≈4s	no
`gpt-4o-transcribe`	dedicated	$0.0062	≈2s	token-by-token
`gemini-2.5-pro`	multimodal	$0.0082	≈5s	chunks
`chirp-2`	dedicated	$0.0164	≈3s	no
`chirp-3`	dedicated	$0.0164	≈4s	no
`gemini-3.5-flash`	multimodal	$0.0178	≈5s	chunks

Die Spanne liegt etwa beim Faktor 30, von gemini-2.5-flash-lite mit $0.0006 pro Minute bis gemini-3.5-flash mit $0.0178. Zwei Punkte fallen auf, beide betreffen den Preis, nicht die Qualität. Das günstigste Modell überhaupt ist ein Gemini flash-lite, dreimal billiger als das günstigste dedizierte ASR. Und innerhalb der Gemini-Familie hatte der Preis in diesem Test keinen Zusammenhang mit der Genauigkeit. Ein größeres, teureres Modell ist also nicht automatisch die sicherere Wahl, sondern ein Grund, das günstige Modell zuerst an den eigenen Audiodaten zu testen, bevor man für das große bezahlt.

Wie sich diese Zahlen bei deinen eigenen Dateien verschieben, hängt vom Abrechnungsmodell ab. Die Modelle mit Minutenabrechnung (whisper-1, seed-asr, qwen3-asr-flash, die Chirps) rechnen allein nach Dauer ab, der Tarif ist also übertragbar: Zehn Minuten Audio kosten das Zehnfache des Minutenpreises, unabhängig von Format oder Inhalt.

Die Modelle mit Tokenabrechnung (die Zeilen gpt-4o und Gemini) skalieren ihre Eingabekosten mit der Dauer, nicht mit der Dateigröße, weil der Anbieter das Audio vor dem Tokenisieren neu abtastet. Eine schwere 320-kbps-MP3 und unsere schlanke 16-kHz-WAV mit denselben Worten tokenisieren zu etwa denselben Kosten. Komprimieren spart also Speicherplatz, nicht Transkriptionskosten. Was eine Tokenrechnung tatsächlich bewegt, ist die Menge des gesprochenen Inhalts: Unsere Clips sind im normalen Tempo ohne Pausen, dichteres oder leiseres Audio kostet bei den Output-Tokens entsprechend etwas mehr oder weniger. Der Header x-total-cost-usd ist in jedem Fall die maßgebliche Wahrheit.

Genauigkeit und Sprachabdeckung

Bei Englisch, Spanisch und Französisch erreichte jedes Modell, das die Sprache akzeptiert, eine Fehlerquote von ungefähr 0 %. Das ist der Boden, den alle schaffen. Bei Mandarin und Hindi bekommt selbst dieser einfache Test erste Risse. Das ist aber eher ein Hinweis darauf, wo du deine eigenen Tests ansetzen solltest, und kein endgültiges Urteil:

Modell	Mandarin (CER)	Hindi (WER)	Abdeckung
`gemini-2.5-flash-lite`	0%	13%	alle fünf
`gemini-3.1-flash-lite-preview`	0%	15%	alle fünf
`seed-asr-bigmodel`	0%	scheitert	nur Englisch + Chinesisch
`qwen3-asr-flash`	0%	15%	alle fünf
`gemini-2.5-flash`	0%	15%	alle fünf
`gpt-4o-mini-transcribe`	0%	4%	alle fünf
`gemini-3-flash-preview`	16%	7%	alle fünf
`whisper-1`	0%	22%	alle fünf
`gpt-4o-transcribe`	0%	13%	alle fünf
`gemini-2.5-pro`	0%	15%	alle fünf
`chirp-2`	16%	15%	alle fünf
`chirp-3`	2%	15%	alle fünf
`gemini-3.5-flash`	0%	15%	alle fünf

Entscheidend ist hier die Abdeckung, nicht die Genauigkeit. seed-asr liefert für Hindi, Spanisch und Französisch ein unbrauchbares Transkript: Es ist ein reines Englisch-und-Chinesisch-Modell und damit nur dann eine Option, wenn dein Audio in einer dieser beiden Sprachen vorliegt. Alle anderen verarbeiteten alle fünf.

Die Streuung bei Hindi und die Ausreißer bei Mandarin (chirp-2, ein Gemini) heißen, dass du diese Modelle bei deinen schwierigeren Sprachen testen solltest, bevor du ihnen vertraust, nicht, dass eines besser ist als das andere. Die absoluten Werte werden durch die synthetische Stimme und das Scoring aufgebläht und schwanken von Lauf zu Lauf. Ehrlich betrachtet: Bei sauberer Sprache in großen Sprachen trennen sich diese Modelle nicht über die Genauigkeit, und genau deshalb kann dieser Test dir hier keine Wahl vorgeben.

Streaming-Ausgabe

Ob ein Modell sein Transkript streamen kann, ist eine Frage der Fähigkeit, nicht der Qualität, und sie teilt das Feld. Die Modelle mit Minutenabrechnung (whisper-1, seed-asr, qwen3-asr-flash und beide Chirps) arbeiten nur im Batch-Modus; das Gateway gibt einen 400 zurück, wenn du sie zum Streamen aufforderst. Die gpt-4o-Modelle streamen Token für Token: gpt-4o-transcribe liefert seine ersten Wörter nach etwa einer Sekunde und füllt den Rest nach, genau das braucht eine UI, die sich live anfühlen soll. Die Gemini-Modelle streamen technisch zwar, aber in drei bis sechs großen Blöcken, wobei der erste ungefähr dann eintrifft, wenn das gesamte Transkript fertig ist. Das bringt also kaum etwas. Die Kosten sind dieselben wie beim Batch-Modus. Zum Streamen fügst du stream=true hinzu:

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

Wiederholtes Audio cachen

Beim Caching teilen sich die beiden Abrechnungsmodelle ein weiteres Mal. Die Minuten-Modelle können nicht cachen: Wir haben denselben Clip fünfmal an whisper-1 geschickt und jedes Mal identische 0,015478 $ bezahlt, weil sich die Rechnung allein aus der Dauer ergibt. Die token-basierten Gemini-Modelle können es. Schickst du dieselbe Datei wiederholt, nutzt Geminis impliziter Cache die Audio-Tokens erneut: Bei einem 155-Sekunden-Clip, fünfmal gesendet, fiel gemini-2.5-flash bei zwei der Wiederholungen von 0,0054 $ auf 0,0026 $, also etwa 51 % weniger, und gemini-2.5-pro sank um rund 39 %.

Zwei Einschränkungen machen das zur Wackelkandidatur. Es ist Best-Effort, also treffen manche Wiederholungen den Cache und andere zahlen den vollen Preis; und das Audio muss Geminis Token-Untergrenze überschreiten, grob eine Minute oder mehr, was die kurzen Clips an anderer Stelle in diesem Test nie tun. Die gpt-4o-Modelle weisen keine Cache-Rate aus und zeigten nur die übliche Schwankung von Lauf zu Lauf. Wenn deine Workload also dieselben Dateien erneut transkribiert, ist Caching bei den token-basierten Modellen ein echter Rabatt und bei den Minuten-Modellen gar keiner.

Was du zuerst prüfst und was du selbst testen musst

Dieser Test sagt dir nicht, welches Modell auf deinen Aufnahmen am genauesten ist. Er sagt dir, wonach du filtern solltest, bevor du deine eigene Evaluierung fährst:

Sprachen. Prüfe, ob das Modell alle Sprachen unterstützt, die du brauchst. seed-asr kann nur Englisch und Chinesisch; die anderen zwölf haben alle fünf getesteten Sprachen verarbeitet. Das ist ein hartes Ausschlusskriterium, keine Präferenz.
Streaming. Wenn du ein Live-Transkript brauchst, streamen nur die gpt-4o-Modelle Token für Token. Die nach Minuten abgerechneten Modelle arbeiten nur im Batch, und Geminis Streaming ist grob.
Kosten. Die Spanne liegt bei etwa Faktor 30. gemini-2.5-flash-lite ist das günstigste und trotzdem mehrsprachig; die Chirps und das größte Gemini sind am teuersten. Ein größeres Modell aus derselben Familie hat seinen Aufpreis auf den einfachen Clips nicht eingespielt, also geh nicht ungeprüft davon aus, dass du es brauchst. Wenn du dieselben Dateien oft neu transkribierst, können die nach Token abgerechneten Gemini-Modelle das Audio auch cachen, wie oben beschrieben.

Sobald ein paar Modelle diese Hürden nehmen, bleibt die entscheidende Frage offen: wie genau jedes auf deinem eigenen Audio mit dessen Akzenten, Störgeräuschen und Vokabular ist. Die musst du selbst beantworten. Kein Benchmark mit sauberer Sprache ersetzt es, die Überlebenden auf echten Aufnahmen laufen zu lassen.

Fazit

Bei sauberer, abgelesener Sprache in den großen Sprachen sind alle dreizehn Modelle etwa gleich genau. Das ist die nützlichste Erkenntnis dieses Tests: Genauigkeit ist nicht das Kriterium, nach dem du entscheiden solltest. Was er festnagelt und was sich tatsächlich unterscheidet, ist die Basislinie: Die Kosten spannen etwa Faktor 30 auf, ein Modell deckt nur zwei Sprachen ab, und mehrere können nicht streamen. Nutze das, um das Feld einzugrenzen, nicht um einen Sieger zu küren, und lass dann die zwei oder drei Überlebenden auf deinem eigenen Audio laufen. Diesen letzten Schritt kann dir kein einfacher Test abnehmen.

Quellen

Kosten und Latenzen am 25.06.2026 auf Synthorai über dreizehn Modelle und fünf Sprachen (Englisch, Mandarin, Hindi, Spanisch, Französisch) gemessen, per x-total-cost-usd-Header und SSE-Timing. Das Audio wurde per Text-to-Speech erzeugt und war bewusst einfach, daher sind die Genauigkeitswerte eher eine Untergrenze als ein Qualitäts-Benchmark; reale Sprache mit Akzenten und Störgeräuschen würde diese Modelle anders auseinanderziehen. Die Latenz schwankt von Lauf zu Lauf. Die Listenpreise sind die Tarife dieser Plattform zum genannten Datum. Prüfe die aktuellen Preise, bevor du dich darauf verlässt.

← Zurück zum Blog