Ce qu'un simple test de transcription peut vous dire, et ce qu'il ne peut pas

Ce qu'un simple test de transcription peut vous dire, et ce qu'il ne peut pas

Sommaire
  1. Ce que ce test est, et ce qu’il n’est pas
  2. Deux types de modèles, trois modes de requête
  3. Comment la transcription est facturée
  4. Coût
  5. Précision et couverture linguistique
  6. Sortie en streaming
  7. Mise en cache des audios répétés
  8. Ce qu’il faut vérifier en premier, et ce que vous devez tester vous-même
  9. En résumé
  10. Sources

Synthorai transcrit désormais l’audio, avec treize modèles derrière un seul endpoint, répartis en deux familles.

Cet endpoint unique cache beaucoup de travail, car nativement ces modèles ne se ressemblent presque pas. whisper-1 prend un upload de fichier en multipart et renvoie {text}. gpt-4o-transcribe utilise le même upload mais ajoute l’usage des tokens. Gemini n’est pas du tout une API de transcription : vous encodez l’audio en base64 dans une requête JSON generateContent, puis vous allez chercher la transcription dans candidates[0].content.parts[].text. Le seed-asr de ByteDance parle le protocole AUC de BytePlus, et les modèles chirp de Google sont des recognizers Cloud Speech-to-Text accessibles via OAuth.

Endpoints différents, auth différente, formats de réponse différents, une intégration de plus à chaque fois. Via le gateway, c’est un seul appel compatible OpenAI : remplacez gpt-4o-mini-transcribe par gemini-2.5-flash-lite ou seed-asr-bigmodel, et rien d’autre ne change dans votre code.

L’appel passe par l’endpoint de transcription compatible OpenAI, donc c’est un remplacement direct si vous utilisez déjà Whisper :

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite
from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

La transcription revient dans text, et le coût facturé se trouve dans le header de réponse x-total-cost-usd.

Nous avons soumis les treize au même test simple, et la nature de ce test conditionne tous les chiffres ci-dessous.


Ce que ce test est, et ce qu’il n’est pas

Nous avons généré des passages du quotidien sans noms propres (une matinée, la météo, une virée au marché) avec une voix text-to-speech standard dans chacune des cinq langues les plus parlées au monde, puis transcrit chaque clip avec les treize modèles. Chaque clip dure environ 12 à 15 secondes, soit à peu près 40 mots à débit normal sans longs silences, encodé en WAV PCM 16 kHz mono 16 bits (256 kbps, environ 2 Mo par minute). Le texte est la vérité terrain et les durées sont exactes.

C’est un cas délibérément facile : audio propre, scripté, un seul locuteur, sans accent, sans bruit, sans jargon. Cela le rend pertinent pour tout ce qui ne dépend pas de la difficulté de l’audio. Il mesure le coût, la latence, quelles langues un modèle accepte tout court, et s’il peut streamer ; ce sont des faits stables.

Ce n’est pas un benchmark de qualité. Les vrais enregistrements, avec accents, bruit de fond, vocabulaire métier, locuteurs qui se chevauchent et une heure de durée, séparent ces modèles d’une manière que la parole propre ne fera jamais, et rien ici ne permet de le prévoir. Lisez les chiffres de précision comme un contrôle plancher, pas comme un classement, et traitez les résultats de coût, de couverture et de streaming comme la base sur laquelle vous pouvez réellement vous appuyer.

Deux types de modèles, trois modes de requête

Les treize modèles se répartissent en deux catégories :

  • Modèles nativement multimodaux (six, la famille Gemini de Google : gemini-2.5-flash-lite, gemini-3.1-flash-lite-preview, gemini-2.5-flash, gemini-3-flash-preview, gemini-3.5-flash, gemini-2.5-pro). Des modèles audio-et-texte généralistes qui transcrivent comme effet de bord de leur multimodalité.
  • Modèles ASR dédiés (sept : whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe d’OpenAI ; seed-asr-bigmodel de ByteDance ; qwen3-asr-flash d’Alibaba ; chirp-2 et chirp-3 de Google). Conçus spécifiquement pour la parole.

Et trois façons d’envoyer l’audio :

  • Fichier en entrée, lot en sortie : on téléverse un enregistrement complet et on récupère toute la transcription dans une seule réponse. Tous les modèles le gèrent.
  • Fichier en entrée, texte en streaming : même téléversement, mais la transcription revient en streaming via SSE au fur et à mesure de sa production. Certains modèles le gèrent, d’autres fonctionnent uniquement en lot.
  • Flux audio en entrée, flux texte en sortie : reconnaissance en temps réel d’un micro ou d’un appel en direct. En développement, pas encore disponible, donc tout ce qui suit concerne les deux premiers modes.

Comment la transcription est facturée

Deux modèles de facturation. À la minute d’audio (whisper-1, seed-asr, qwen3-asr-flash, les modèles Chirp) : on paie la durée réelle de l’enregistrement, quel qu’en soit le contenu. Au token (les modèles gpt-4o et Gemini) : l’audio est tokenisé à un taux fixe, et on paie ces tokens d’entrée plus les tokens de sortie de la transcription, donc le silence coûte moins cher que la parole dense.

La facturation au token cache un piège : le taux d’entrée affiché concerne le texte, mais l’audio est facturé plus cher (gpt-4o-mini-transcribe affiche 1,25 $/M en entrée mais facture l’audio à 3 $/M). En estimant à partir du taux texte, on sous-évalue. Le gateway renvoie le coût réel dans un en-tête x-total-cost-usd ; mieux vaut le lire que deviner depuis une grille tarifaire.

Coût

C’est le point que le test mesure le plus nettement, et c’est aussi celui qui varie le plus. Coût par minute, relevé dans le header de facturation :

ModèleTypeCoût / minLatenceStreams
gemini-2.5-flash-litemultimodal$0.0006≈4schunks
gemini-3.1-flash-lite-previewmultimodal$0.0016≈3schunks
seed-asr-bigmodeldedicated$0.0020≈10sno
qwen3-asr-flashdedicated$0.0021≈3sno
gemini-2.5-flashmultimodal$0.0026≈2schunks
gpt-4o-mini-transcribededicated$0.0031≈3stoken-by-token
gemini-3-flash-previewmultimodal$0.0035≈4schunks
whisper-1dedicated$0.0060≈4sno
gpt-4o-transcribededicated$0.0062≈2stoken-by-token
gemini-2.5-promultimodal$0.0082≈5schunks
chirp-2dedicated$0.0164≈3sno
chirp-3dedicated$0.0164≈4sno
gemini-3.5-flashmultimodal$0.0178≈5schunks

L’écart est d’environ 30x, de gemini-2.5-flash-lite à $0.0006 la minute jusqu’à gemini-3.5-flash à $0.0178. Deux points retiennent l’attention, et tous deux concernent le prix plutôt que la qualité. Le modèle le moins cher est un Gemini flash-lite, trois fois moins cher que l’ASR dédié le plus économique. Et au sein de la famille Gemini, le prix n’avait aucun rapport avec la précision sur ce test : un modèle plus gros et plus cher n’est donc pas automatiquement le choix le plus sûr. C’est plutôt une raison de benchmarker le modèle bon marché sur votre propre audio avant de payer pour le gros.

L’évolution de ces chiffres avec vos propres fichiers dépend du mode de facturation. Les modèles facturés à la minute (whisper-1, seed-asr, qwen3-asr-flash, les Chirp) facturent à la durée seule, donc le tarif est transposable : dix minutes d’audio coûtent dix fois le prix à la minute, quel que soit le format ou le contenu.

Les modèles facturés au token (les lignes gpt-4o et Gemini) font dépendre leur coût d’entrée de la durée, pas de la taille du fichier, car le provider rééchantillonne l’audio avant la tokenisation. Un MP3 lourd à 320 kbps et notre WAV léger à 16 kHz contenant les mêmes mots se tokenisent pour un coût quasi identique : compresser vos fichiers économise du stockage, pas de la facture de transcription. Ce qui fait bouger une facture au token, c’est la quantité réellement parlée. Nos extraits ont un débit normal, sans silences : un audio plus dense ou plus calme facture donc un peu plus ou un peu moins sur les tokens de sortie. Le header x-total-cost-usd reste la référence dans tous les cas.

Précision et couverture linguistique

En anglais, en espagnol et en français, tous les modèles qui acceptent la langue affichent un taux d’erreur proche de 0 %. C’est le plancher, et tout le monde le franchit. C’est avec le mandarin et le hindi que ce test pourtant simple commence à montrer ses limites, mais voyez-y plutôt une indication sur où concentrer vos propres tests, pas un verdict :

ModèleMandarin (CER)Hindi (WER)Couverture
gemini-2.5-flash-lite0%13%les cinq
gemini-3.1-flash-lite-preview0%15%les cinq
seed-asr-bigmodel0%échoueanglais + chinois uniquement
qwen3-asr-flash0%15%les cinq
gemini-2.5-flash0%15%les cinq
gpt-4o-mini-transcribe0%4%les cinq
gemini-3-flash-preview16%7%les cinq
whisper-10%22%les cinq
gpt-4o-transcribe0%13%les cinq
gemini-2.5-pro0%15%les cinq
chirp-216%15%les cinq
chirp-32%15%les cinq
gemini-3.5-flash0%15%les cinq

Le vrai point dur ici, c’est la couverture, pas la précision. seed-asr renvoie une transcription inutilisable en hindi, en espagnol et en français : c’est un modèle anglais-chinois, il n’est donc envisageable que si votre audio est dans l’une de ces deux langues. Tous les autres gèrent les cinq.

L’écart sur le hindi et les ratés en mandarin (chirp-2, un Gemini) montrent qu’il faut tester ces modèles sur vos langues les plus difficiles avant de leur faire confiance ; ils ne disent pas qu’un modèle est meilleur qu’un autre. Les chiffres absolus sont gonflés par la voix synthétique et la méthode de scoring, et ils bougent d’une exécution à l’autre. La lecture honnête : sur de la parole propre dans les grandes langues, la précision n’est pas ce qui sépare ces modèles, donc ce n’est pas sur ce critère que ce test peut vous aider à choisir.

Sortie en streaming

Savoir si un modèle peut streamer sa transcription relève de la capacité, pas de la qualité, et ça partage le peloton en deux. Les modèles facturés à la minute (whisper-1, seed-asr, qwen3-asr-flash et les deux Chirp) ne fonctionnent qu’en batch ; le gateway renvoie un 400 si vous demandez du streaming. Les modèles gpt-4o streament token par token : gpt-4o-transcribe renvoie ses premiers mots en une seconde environ puis complète le reste, ce qu’il faut pour une UI au ressenti temps réel. Les modèles Gemini streament techniquement, mais en trois à six gros blocs, le premier arrivant à peu près au moment où toute la transcription est terminée — ça n’apporte donc presque rien. Le coût est identique au batch. Pour streamer, ajoutez stream=true :

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

Mise en cache des audios répétés

Le cache fait à nouveau diverger les deux modes de facturation. Les modèles à la minute ne peuvent pas mettre en cache : nous avons envoyé cinq fois le même extrait à whisper-1 et payé chaque fois exactement 0,015478 $, puisque la facture ne dépend que de la durée. Les modèles Gemini facturés au token, eux, le peuvent. Envoyez le même fichier plusieurs fois et le cache implicite de Gemini réutilise les tokens audio : sur un extrait de 155 secondes envoyé cinq fois, gemini-2.5-flash est passé de 0,0054 $ à 0,0026 $ sur deux des répétitions, soit environ 51 % de réduction, et gemini-2.5-pro a baissé d’environ 39 %.

Deux réserves empêchent d’en faire une certitude. C’est du best-effort : certaines répétitions touchent le cache, d’autres paient plein tarif. Et l’audio doit dépasser le plancher de tokens de Gemini, environ une minute, ce que les extraits courts utilisés ailleurs dans ce test n’atteignent jamais. Les modèles gpt-4o n’affichent aucun taux de cache et ne montraient qu’une variation ordinaire d’une exécution à l’autre. Donc si votre charge de travail re-transcrit les mêmes fichiers, le cache représente une vraie remise sur les modèles facturés au token, et rien sur ceux facturés à la minute.

Ce qu’il faut vérifier en premier, et ce que vous devez tester vous-même

Ce test ne vous dira pas quel modèle est le plus précis sur vos enregistrements. Il vous dit en revanche sur quoi filtrer avant de lancer votre propre évaluation :

  • Langues. Vérifiez que le modèle accepte toutes les langues dont vous avez besoin. seed-asr ne gère que l’anglais et le chinois ; les douze autres ont géré les cinq langues que nous avons testées. C’est un critère éliminatoire, pas une préférence.
  • Streaming. Si vous avez besoin d’une transcription en direct, seuls les modèles gpt-4o diffusent token par token ; les modèles facturés à la minute fonctionnent uniquement en batch et le streaming de Gemini est grossier.
  • Coût. L’écart est d’environ 30x. gemini-2.5-flash-lite est le moins cher et reste multilingue ; les Chirp et le plus gros Gemini sont les plus coûteux. Un modèle plus gros de la même famille n’a pas justifié son surcoût sur les clips faciles, donc ne partez pas du principe qu’il vous en faut un sans avoir vérifié. Si vous re-transcrivez souvent les mêmes fichiers, les modèles Gemini facturés au token peuvent aussi mettre l’audio en cache, comme indiqué plus haut.

Une fois que quelques modèles ont passé ces filtres, reste la vraie question : quelle est la précision de chacun sur votre propre audio, avec ses accents, son bruit et son vocabulaire. C’est à vous d’y répondre. Aucun benchmark sur parole propre ne remplace le fait de faire tourner les survivants sur de vrais enregistrements.

En résumé

Sur de la parole propre et scriptée dans les grandes langues, les treize modèles sont à peu près aussi précis, et c’est l’enseignement le plus utile de ce test : la précision n’est pas le critère de choix. Ce qu’il établit clairement, et qui varie réellement, c’est le socle : le coût va de 1 à 30 environ, un modèle ne couvre que deux langues, et plusieurs ne savent pas streamer. Servez-vous-en pour réduire le champ, pas pour désigner un gagnant, puis faites tourner les deux ou trois survivants sur votre propre audio. Cette dernière étape, aucun test simple ne peut la faire à votre place.


Sources

Coûts et latences mesurés sur Synthorai le 2026-06-25 sur treize modèles et cinq langues (anglais, mandarin, hindi, espagnol, français), via l’en-tête x-total-cost-usd et le chronométrage SSE. L’audio a été généré par synthèse vocale et volontairement facile, donc les chiffres de précision constituent un plancher plutôt qu’un benchmark de qualité ; de la parole réelle avec accents et bruit séparerait ces modèles différemment. La latence varie d’une exécution à l’autre. Les prix affichés sont les tarifs de cette plateforme à cette date. Vérifiez les tarifs en vigueur avant de vous y fier.

← Retour au blog