Qué puede y qué no puede decirte una prueba de transcripción sencilla

25 de junio de 2026 · transcription · asr · speech-to-text · cost

Contenido

Qué es esta prueba y qué no es
Dos tipos de modelo, tres modos de petición
Cómo se factura la transcripción
Coste
Precisión y cobertura de idiomas
Salida en streaming
Caché de audio repetido
Qué revisar primero y qué probar tú mismo
Conclusión
Fuentes

Synthorai ya transcribe audio, con trece modelos detrás de un único endpoint repartidos en dos familias.

Ese único endpoint esconde mucho trabajo, porque de forma nativa estos modelos apenas se parecen entre sí. whisper-1 recibe un archivo subido como multipart y devuelve {text}. gpt-4o-transcribe usa la misma subida pero añade el uso de tokens. Gemini no es ni siquiera una API de transcripción: codificas el audio en base64 dentro de una petición JSON generateContent y sacas la transcripción de candidates[0].content.parts[].text. El seed-asr de ByteDance habla el protocolo AUC de BytePlus, y los modelos chirp de Google son reconocedores de Cloud Speech-to-Text a los que se accede con OAuth.

Endpoints distintos, auth distinta, formatos de respuesta distintos, una integración más por cada uno. A través del gateway es una sola llamada compatible con OpenAI: cambias gpt-4o-mini-transcribe por gemini-2.5-flash-lite o seed-asr-bigmodel, y nada más en tu código cambia.

La llamada es el endpoint de transcripción compatible con OpenAI, así que es un reemplazo directo si ya usas Whisper:

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite

from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

La transcripción vuelve en text, y el coste facturado está en la cabecera de respuesta x-total-cost-usd.

Pasamos los trece por la misma prueba sencilla, y lo que es esa prueba condiciona todas las cifras de abajo.

Qué es esta prueba y qué no es

Generamos pasajes cotidianos sin nombres propios (una mañana, el clima, una ida al mercado) con una voz de texto a voz estándar en cada uno de los cinco idiomas más hablados del mundo, y luego transcribimos cada clip con los trece modelos. Cada clip dura entre 12 y 15 segundos, unas 40 palabras de habla a ritmo normal sin silencios largos, codificadas como WAV PCM mono de 16 bits a 16 kHz (256 kbps, unos 2 MB por minuto). El texto es la verdad de referencia y las duraciones son exactas.

Es un caso fácil a propósito: audio limpio, con guion, de un solo hablante, sin acentos, ruido ni jerga. Eso lo hace bueno para las cosas que no dependen de lo difícil que sea el audio. Mide el coste, la latencia, qué idiomas acepta cada modelo y si puede hacer streaming, y esos son datos estables.

No es un benchmark de calidad. Las grabaciones reales con acentos, ruido de fondo, vocabulario especializado, hablantes que se solapan y una hora de duración separan a estos modelos de formas que el audio limpio nunca logrará, y nada de esto lo predice. Lee las cifras de precisión como una comprobación de mínimos, no como un ranking, y toma los resultados de coste, cobertura y streaming como la base en la que sí puedes confiar.

Dos tipos de modelo, tres modos de petición

Los trece modelos se dividen en dos categorías:

Modelos multimodales nativos (seis, la familia Gemini de Google: gemini-2.5-flash-lite, gemini-3.1-flash-lite-preview, gemini-2.5-flash, gemini-3-flash-preview, gemini-3.5-flash, gemini-2.5-pro). Modelos generales de audio y texto que transcriben como efecto secundario de ser multimodales.
Modelos ASR dedicados (siete: whisper-1, gpt-4o-transcribe y gpt-4o-mini-transcribe de OpenAI; seed-asr-bigmodel de ByteDance; qwen3-asr-flash de Alibaba; chirp-2 y chirp-3 de Google). Diseñados específicamente para voz.

Y tres formas de enviar el audio:

Entra un archivo, sale un lote: subes una grabación completa y recibes la transcripción entera en una sola respuesta. Lo soportan todos los modelos.
Entra un archivo, sale texto en streaming: la misma subida, pero la transcripción llega por SSE a medida que se genera. Algunos modelos lo soportan; otros solo funcionan en modo lote.
Entra audio en streaming, sale texto en streaming: reconocimiento en tiempo real de un micrófono o una llamada en directo. Está en desarrollo y todavía no está disponible, así que todo lo que sigue se refiere a los dos primeros modos.

Cómo se factura la transcripción

Hay dos esquemas de facturación. Por minuto de audio (whisper-1, seed-asr, qwen3-asr-flash y los modelos Chirp): pagas por la duración real de la grabación, sea cual sea su contenido. Por token (los modelos gpt-4o y Gemini): el audio se tokeniza a una tarifa fija y pagas esos tokens de entrada más los tokens de salida de la transcripción, así que el silencio sale más barato que el habla densa.

El esquema por token tiene una trampa: la tarifa de entrada que aparece en la lista es la de texto, pero el audio se factura más caro (gpt-4o-mini-transcribe figura con $1.25/M de entrada, pero factura el audio a $3/M). Si haces el cálculo con la tarifa de texto, te quedas corto. El gateway devuelve el coste real en una cabecera x-total-cost-usd, así que léela en vez de adivinar a partir de una página de precios.

Coste

Esta es la parte que el test mide con claridad, y la que más varía. Coste por minuto, según la cabecera de facturación:

Modelo	Tipo	Coste / min	Latencia	Streams
`gemini-2.5-flash-lite`	multimodal	$0.0006	≈4s	chunks
`gemini-3.1-flash-lite-preview`	multimodal	$0.0016	≈3s	chunks
`seed-asr-bigmodel`	dedicado	$0.0020	≈10s	no
`qwen3-asr-flash`	dedicado	$0.0021	≈3s	no
`gemini-2.5-flash`	multimodal	$0.0026	≈2s	chunks
`gpt-4o-mini-transcribe`	dedicado	$0.0031	≈3s	token a token
`gemini-3-flash-preview`	multimodal	$0.0035	≈4s	chunks
`whisper-1`	dedicado	$0.0060	≈4s	no
`gpt-4o-transcribe`	dedicado	$0.0062	≈2s	token a token
`gemini-2.5-pro`	multimodal	$0.0082	≈5s	chunks
`chirp-2`	dedicado	$0.0164	≈3s	no
`chirp-3`	dedicado	$0.0164	≈4s	no
`gemini-3.5-flash`	multimodal	$0.0178	≈5s	chunks

La diferencia es de unas 30x, desde gemini-2.5-flash-lite a $0.0006 por minuto hasta gemini-3.5-flash a $0.0178. Hay dos cosas que destacar, ambas sobre precio y no sobre calidad. El modelo más barato de todos es un Gemini flash-lite, tres veces más barato que el ASR dedicado más económico. Y dentro de la familia Gemini el precio no guardó ninguna relación con la precisión en este test, así que un modelo más grande y caro no es automáticamente la opción más segura; más bien es razón para hacer benchmark del barato con tu propio audio antes de pagar por el grande.

Cómo se mueven estos números con tus propios archivos depende de la forma de facturación. Los modelos por minuto (whisper-1, seed-asr, qwen3-asr-flash, los Chirp) facturan solo por duración, así que la tarifa es trasladable: diez minutos de audio cuestan diez veces la cifra por minuto, sea cual sea el formato o el contenido.

Los modelos por token (las filas de gpt-4o y Gemini) escalan el coste de entrada con la duración, no con el tamaño del archivo, porque el proveedor remuestrea el audio antes de tokenizarlo. Un MP3 pesado a 320 kbps y nuestro WAV ligero a 16 kHz con las mismas palabras se tokenizan a un coste prácticamente igual, así que comprimir tus archivos ahorra almacenamiento, no gasto de transcripción. Lo que sí mueve una factura por token es cuánto se habla en realidad: nuestros clips tienen un ritmo normal y sin silencios, así que un audio más denso o más callado factura algo más o algo menos en los tokens de salida. La cabecera x-total-cost-usd es la fuente de verdad en todos los casos.

Precisión y cobertura de idiomas

En inglés, español y francés, todos los modelos que aceptan el idioma marcaron alrededor de 0% de error. Ese es el suelo, y todos lo superan. El mandarín y el hindi son donde incluso esta prueba sencilla empieza a mostrar grietas, pero tómalo como una pista de dónde apuntar tus propias pruebas, no como un veredicto:

Modelo	Mandarín (CER)	Hindi (WER)	Cobertura
`gemini-2.5-flash-lite`	0%	13%	los cinco
`gemini-3.1-flash-lite-preview`	0%	15%	los cinco
`seed-asr-bigmodel`	0%	falla	solo inglés + chino
`qwen3-asr-flash`	0%	15%	los cinco
`gemini-2.5-flash`	0%	15%	los cinco
`gpt-4o-mini-transcribe`	0%	4%	los cinco
`gemini-3-flash-preview`	16%	7%	los cinco
`whisper-1`	0%	22%	los cinco
`gpt-4o-transcribe`	0%	13%	los cinco
`gemini-2.5-pro`	0%	15%	los cinco
`chirp-2`	16%	15%	los cinco
`chirp-3`	2%	15%	los cinco
`gemini-3.5-flash`	0%	15%	los cinco

Lo que pesa aquí es la cobertura, no la precisión. seed-asr devuelve una transcripción inútil para hindi, español y francés: es un modelo de inglés y chino, así que solo es opción si tu audio está en uno de esos dos idiomas. Todos los demás cubrieron los cinco.

La dispersión en hindi y los tropiezos en mandarín (chirp-2, un Gemini) indican que vale la pena probar esos modelos con tus idiomas más difíciles antes de confiar en ellos, no que uno sea mejor que otro. Los números absolutos están inflados por la voz sintética y el método de puntuación, y varían de una ejecución a otra. La lectura honesta es que, en habla limpia y en idiomas mayoritarios, la precisión no es donde estos modelos se diferencian, así que tampoco es donde esta prueba puede decirte cuál elegir.

Salida en streaming

Que un modelo pueda transmitir su transcripción es una capacidad, no una cuestión de calidad, y divide a la lista. Los modelos por minuto (whisper-1, seed-asr, qwen3-asr-flash y ambos Chirp) solo funcionan en batch; el gateway devuelve un 400 si les pides streaming. Los modelos gpt-4o transmiten token a token: gpt-4o-transcribe devuelve sus primeras palabras en aproximadamente un segundo y va completando el resto, que es lo que necesita una UI con sensación de tiempo real. Los modelos Gemini técnicamente transmiten, pero en tres a seis bloques grandes, y el primero llega más o menos cuando ya está lista toda la transcripción, así que aporta casi nada. El coste es el mismo que en batch. Para transmitir, añade stream=true:

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

Caché de audio repetido

La caché es donde las dos formas de facturación se separan una vez más. Los modelos por minuto no pueden cachear: enviamos el mismo clip a whisper-1 cinco veces y pagamos los mismos $0.015478 cada vez, porque la factura es solo la duración. Los modelos Gemini facturados por token sí pueden. Envía el mismo archivo varias veces y la caché implícita de Gemini reutiliza los tokens de audio: en un clip de 155 segundos enviado cinco veces, gemini-2.5-flash bajó de $0.0054 a $0.0026 en dos de las repeticiones, alrededor de un 51% menos, y gemini-2.5-pro cayó cerca de un 39%.

Dos salvedades impiden que sea algo seguro. Funciona en modo best-effort, así que algunas repeticiones aciertan la caché y otras pagan el precio completo; y el audio tiene que superar el mínimo de tokens de Gemini, más o menos un minuto, algo que los clips cortos del resto de esta prueba nunca alcanzan. Los modelos gpt-4o no indican tasa de caché y solo mostraron la variación habitual entre ejecuciones. Así que si tu carga de trabajo vuelve a transcribir los mismos archivos, la caché es un descuento real en los modelos facturados por token y nada en los de por minuto.

Qué revisar primero y qué probar tú mismo

Esta prueba no te dice qué modelo es más preciso con tus grabaciones. Lo que sí te dice es qué filtrar antes de hacer tu propia evaluación:

Idiomas. Comprueba que el modelo acepte todos los idiomas que necesitas. seed-asr solo admite inglés y chino; los otros doce manejaron los cinco que probamos. Esto es un requisito eliminatorio, no una preferencia.
Streaming. Si necesitas la transcripción en vivo, solo los modelos gpt-4o emiten token a token; los modelos por minuto son únicamente batch y el streaming de Gemini es muy poco granular.
Coste. La diferencia es de unas 30x. gemini-2.5-flash-lite es el más barato y aun así es multilingüe; los Chirp y el Gemini más grande son los más caros. Un modelo más grande de la misma familia no justificó su sobreprecio en los clips fáciles, así que no des por hecho que lo necesitas sin comprobarlo. Si vuelves a transcribir los mismos archivos a menudo, los modelos de Gemini facturados por token también pueden cachear el audio, como vimos antes.

Una vez que unos cuantos modelos superan esos filtros, queda la pregunta que tienes que responder tú: cuán preciso es cada uno con tu propio audio, con sus acentos, ruido y vocabulario. Ningún benchmark de habla limpia sustituye a probar los modelos que sobreviven con grabaciones reales.

Conclusión

Con habla limpia y guionizada en idiomas mayoritarios, los trece modelos son más o menos igual de precisos, y eso es lo más útil que dice esta prueba: la precisión no es el eje por el que elegir. Lo que sí queda fijado, y lo que realmente varía, es el punto de partida: el coste abarca unas 30x, un modelo cubre solo dos idiomas y varios no pueden hacer streaming. Usa eso para acotar el campo, no para coronar a un ganador, y después prueba los dos o tres que sobrevivan con tu propio audio. Ese último paso es el que ninguna prueba sencilla puede hacer por ti.

Fuentes

Costes y latencias medidos en Synthorai el 2026-06-25 sobre trece modelos y cinco idiomas (inglés, mandarín, hindi, español, francés), mediante la cabecera x-total-cost-usd y el cronometraje por SSE. El audio se generó por text-to-speech y era deliberadamente fácil, así que las cifras de precisión son una comprobación de mínimos, no un benchmark de calidad; el habla real con acentos y ruido separaría estos modelos de otra forma. La latencia varía de una ejecución a otra. Los precios de catálogo son las tarifas de esta plataforma a esa fecha. Verifica los precios actuales antes de basarte en ellos.

← Volver al blog