O que um teste simples de transcrição pode e não pode te dizer

O que um teste simples de transcrição pode e não pode te dizer

Conteúdo
  1. O que este teste é, e o que não é
  2. Dois tipos de modelo, três modos de requisição
  3. Como a transcrição é cobrada
  4. Custo
  5. Precisão e cobertura de idiomas
  6. Saída em streaming
  7. Cache de áudio repetido
  8. O que verificar primeiro e o que você mesmo precisa testar
  9. Resumo
  10. Fontes

A Synthorai agora transcreve áudio, com treze modelos por trás de um único endpoint em duas famílias.

Esse endpoint único esconde bastante trabalho, porque nativamente esses modelos quase não se parecem entre si. O whisper-1 recebe upload de arquivo em multipart e devolve {text}. O gpt-4o-transcribe usa o mesmo upload, mas adiciona o uso de tokens. O Gemini nem é uma API de transcrição: você codifica o áudio em base64 dentro de uma requisição JSON generateContent e tem que garimpar a transcrição em candidates[0].content.parts[].text. O seed-asr da ByteDance fala o protocolo AUC da BytePlus, e os modelos chirp da Google são recognizers do Cloud Speech-to-Text acessados via OAuth.

Endpoints diferentes, auth diferente, formatos de resposta diferentes, mais uma integração para cada um. Pelo gateway é uma única chamada compatível com OpenAI: troque gpt-4o-mini-transcribe por gemini-2.5-flash-lite ou seed-asr-bigmodel e nada mais muda no seu código.

A chamada é o endpoint de transcrição compatível com OpenAI, então é drop-in se você já usa o Whisper:

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite
from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

A transcrição volta em text, e o custo cobrado vem no header de resposta x-total-cost-usd.

Passamos os treze pelo mesmo teste simples, e o que esse teste é determina cada número abaixo.


O que este teste é, e o que não é

Geramos trechos do dia a dia sem nomes próprios (uma manhã, o tempo, uma ida ao mercado) com uma voz padrão de text-to-speech em cada um dos cinco idiomas mais falados do mundo, e depois transcrevemos cada clipe pelos treze modelos. Cada clipe dura cerca de 12 a 15 segundos, mais ou menos 40 palavras de fala em ritmo normal sem silêncios longos, codificado como WAV PCM 16 bits mono a 16 kHz (256 kbps, cerca de 2 MB por minuto). O texto é a verdade de referência e as durações são exatas.

Este é um caso fácil de propósito: áudio limpo, roteirizado, com um único falante, sem sotaque, ruído ou jargão. Isso o torna bom para as coisas que não dependem de quão difícil é o áudio. Ele mede custo, latência, quais idiomas um modelo aceita de fato, e se ele consegue fazer streaming, e esses são fatos estáveis.

Não é um benchmark de qualidade. Gravações reais com sotaque, ruído de fundo, vocabulário de domínio, falantes sobrepostos e uma hora de duração separam esses modelos de formas que a fala limpa nunca vai mostrar, e nada aqui prevê isso. Leia os números de acurácia como uma verificação de piso, não como um ranking, e trate os resultados de custo, cobertura e streaming como a base na qual você realmente pode confiar.

Dois tipos de modelo, três modos de requisição

Os treze modelos se dividem em dois grupos:

  • Modelos multimodais nativos (seis, a família Gemini do Google: gemini-2.5-flash-lite, gemini-3.1-flash-lite-preview, gemini-2.5-flash, gemini-3-flash-preview, gemini-3.5-flash, gemini-2.5-pro). São modelos genéricos de áudio e texto que transcrevem como efeito colateral de serem multimodais.
  • Modelos de ASR dedicados (sete: o whisper-1, gpt-4o-transcribe e gpt-4o-mini-transcribe da OpenAI; o seed-asr-bigmodel da ByteDance; o qwen3-asr-flash da Alibaba; e o chirp-2 e chirp-3 do Google). Feitos sob medida para fala.

E três formas de enviar o áudio:

  • Arquivo na entrada, lote na saída: você sobe a gravação completa e recebe a transcrição inteira em uma única resposta. Todos os modelos suportam isso.
  • Arquivo na entrada, texto na saída via streaming: o mesmo upload, mas a transcrição volta via SSE conforme é produzida. Alguns modelos suportam isso; outros só funcionam em lote.
  • Stream de áudio na entrada, stream de texto na saída: reconhecimento em tempo real de um microfone ou chamada ao vivo. Está em desenvolvimento e ainda não disponível, então tudo abaixo se refere aos dois primeiros modos.

Como a transcrição é cobrada

Dois modelos de cobrança. Por minuto de áudio (whisper-1, seed-asr, qwen3-asr-flash e os modelos Chirp): você paga pela duração real da gravação, seja qual for o conteúdo. Por token (os modelos gpt-4o e Gemini): o áudio é tokenizado a uma taxa fixa, e você paga por esses tokens de entrada mais os tokens de saída da transcrição, então silêncio sai mais barato que fala densa.

A cobrança por token tem uma pegadinha: a taxa de entrada listada é para texto, mas áudio custa mais (gpt-4o-mini-transcribe lista $1,25/M de entrada, mas cobra áudio a $3/M). Se estimar pela taxa de texto, você subestima. O gateway retorna o valor real cobrado no header x-total-cost-usd, então leia esse valor em vez de chutar a partir de uma página de preços.

Custo

Esta é a parte que o teste mede com clareza, e é onde há maior variação. Custo por minuto, retirado do header de cobrança:

ModeloTipoCusto / minLatênciaStreams
gemini-2.5-flash-litemultimodal$0.0006≈4schunks
gemini-3.1-flash-lite-previewmultimodal$0.0016≈3schunks
seed-asr-bigmodeldedicado$0.0020≈10snão
qwen3-asr-flashdedicado$0.0021≈3snão
gemini-2.5-flashmultimodal$0.0026≈2schunks
gpt-4o-mini-transcribededicado$0.0031≈3stoken a token
gemini-3-flash-previewmultimodal$0.0035≈4schunks
whisper-1dedicado$0.0060≈4snão
gpt-4o-transcribededicado$0.0062≈2stoken a token
gemini-2.5-promultimodal$0.0082≈5schunks
chirp-2dedicado$0.0164≈3snão
chirp-3dedicado$0.0164≈4snão
gemini-3.5-flashmultimodal$0.0178≈5schunks

A diferença é de cerca de 30x: do gemini-2.5-flash-lite a $0.0006 por minuto até o gemini-3.5-flash a $0.0178. Dois pontos chamam a atenção, ambos sobre preço e não sobre qualidade. O modelo mais barato de todos é um Gemini flash-lite, três vezes mais barato que o ASR dedicado mais barato. E dentro da família Gemini o preço não teve relação com a precisão neste teste, então um modelo maior e mais caro não é automaticamente a escolha mais segura. É justamente um motivo para testar o barato no seu próprio áudio antes de pagar pelo grande.

O quanto esses números mudam com seus próprios arquivos depende do formato de cobrança. Os modelos por minuto (whisper-1, seed-asr, qwen3-asr-flash, os Chirps) cobram apenas pela duração, então a taxa é portável: dez minutos de áudio custam dez vezes o valor por minuto, qualquer que seja o formato ou conteúdo.

Os modelos por token (as linhas do gpt-4o e do Gemini) escalam o custo de entrada pela duração, não pelo tamanho do arquivo, porque o provedor reamostra o áudio antes de tokenizar. Um MP3 pesado de 320 kbps e nosso WAV enxuto de 16 kHz com as mesmas palavras tokenizam com custo praticamente igual, então comprimir os arquivos economiza armazenamento, não gasto de transcrição. O que mexe na conta por token é o quanto é de fato falado: nossos clipes têm ritmo normal e sem silêncios, então áudio mais denso ou mais silencioso que isso cobra um pouco mais ou menos nos tokens de saída. O header x-total-cost-usd é a fonte da verdade em todos os casos.

Precisão e cobertura de idiomas

Em inglês, espanhol e francês, todo modelo que aceita o idioma marcou cerca de 0% de erro. Esse é o piso, e todo mundo passa. Mandarim e hindi são onde até esse teste fácil começa a mostrar rachaduras, mas encare isso como uma dica de onde mirar seus próprios testes, não como veredito:

ModeloMandarim (CER)Hindi (WER)Cobertura
gemini-2.5-flash-lite0%13%todos os cinco
gemini-3.1-flash-lite-preview0%15%todos os cinco
seed-asr-bigmodel0%falhasó inglês + chinês
qwen3-asr-flash0%15%todos os cinco
gemini-2.5-flash0%15%todos os cinco
gpt-4o-mini-transcribe0%4%todos os cinco
gemini-3-flash-preview16%7%todos os cinco
whisper-10%22%todos os cinco
gpt-4o-transcribe0%13%todos os cinco
gemini-2.5-pro0%15%todos os cinco
chirp-216%15%todos os cinco
chirp-32%15%todos os cinco
gemini-3.5-flash0%15%todos os cinco

O dado duro aqui é a cobertura, não a precisão. O seed-asr devolve uma transcrição inútil para hindi, espanhol e francês: é um modelo de inglês e chinês, então só serve se seu áudio estiver num desses dois idiomas. O resto lidou com os cinco.

A variação no hindi e os deslizes no mandarim (chirp-2, um Gemini) indicam que esses modelos valem ser testados nos seus idiomas mais difíceis antes de você confiar neles, não que um seja melhor que o outro. Os números absolutos estão inflados pela voz sintética e pela pontuação, e mudam de execução para execução. A leitura honesta é que, em fala limpa nos idiomas principais, a precisão não é o que separa esses modelos, então não é por aí que este teste pode te orientar na escolha.

Saída em streaming

Se um modelo consegue ou não transmitir a transcrição em streaming é uma questão de capacidade, não de qualidade, e isso divide o grupo. Os modelos cobrados por minuto (whisper-1, seed-asr, qwen3-asr-flash e os dois Chirps) só funcionam em batch; o gateway retorna 400 se você pedir streaming. Os modelos gpt-4o transmitem token a token: o gpt-4o-transcribe devolve as primeiras palavras em cerca de um segundo e preenche o resto, que é o que uma UI com sensação de tempo real precisa. Os modelos Gemini tecnicamente fazem streaming, mas em três a seis blocos grandes, com o primeiro chegando mais ou menos quando a transcrição inteira já está pronta, então não rende quase nada. O custo é o mesmo do batch. Para fazer streaming, adicione stream=true:

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

Cache de áudio repetido

O cache é onde os dois formatos de cobrança se separam mais uma vez. Os modelos cobrados por minuto não conseguem cachear: enviamos o mesmo clipe ao whisper-1 cinco vezes e pagamos $0.015478 idênticos toda vez, porque a conta é só duração. Os modelos Gemini cobrados por token conseguem. Envie o mesmo arquivo repetidamente e o cache implícito do Gemini reaproveita os tokens de áudio: num clipe de 155 segundos enviado cinco vezes, o gemini-2.5-flash caiu de $0.0054 para $0.0026 em duas das repetições, cerca de 51% de desconto, e o gemini-2.5-pro caiu cerca de 39%.

Duas ressalvas impedem que isso seja garantido. É best-effort, então algumas repetições acertam o cache e outras pagam o preço cheio; e o áudio precisa passar do piso de tokens do Gemini, mais ou menos um minuto ou mais, o que os clipes curtos do resto deste teste nunca alcançam. Os modelos gpt-4o não listam taxa de cache e mostraram apenas a variação comum entre execuções. Então, se sua carga retranscreve os mesmos arquivos, o cache é um desconto real nos modelos cobrados por token e nada nos cobrados por minuto.

O que verificar primeiro e o que você mesmo precisa testar

Este teste não diz qual modelo é mais preciso nas suas gravações. O que ele mostra é o que filtrar antes de rodar sua própria avaliação:

  • Idiomas. Confira se o modelo aceita todos os idiomas de que você precisa. O seed-asr só funciona com inglês e chinês; os outros doze lidaram com todos os cinco que testamos. Isso é um filtro obrigatório, não uma preferência.
  • Streaming. Se você precisa de transcrição ao vivo, só os modelos gpt-4o fazem streaming token a token; os modelos cobrados por minuto são apenas batch e o streaming do Gemini é grosseiro.
  • Custo. A diferença chega a cerca de 30x. O gemini-2.5-flash-lite é o mais barato e ainda assim multilíngue; os Chirps e o maior Gemini são os mais caros. Um modelo maior da mesma família não justificou o preço extra nos clipes fáceis, então não presuma que você precisa dele sem verificar. Se você re-transcreve os mesmos arquivos com frequência, os modelos Gemini cobrados por token também conseguem cachear o áudio, como mostrado acima.

Depois que alguns modelos passam por esses filtros, sobra a pergunta que você tem que responder sozinho: quão preciso cada um é no seu próprio áudio, com seus sotaques, ruídos e vocabulário. Nenhum benchmark de fala limpa substitui rodar os finalistas em gravações reais.

Resumo

Em fala limpa e roteirizada nos principais idiomas, todos os treze modelos têm precisão parecida, e essa é a informação mais útil deste teste: precisão não é o eixo de decisão. O que ele de fato delimita, e o que realmente varia, é o ponto de partida: o custo varia cerca de 30x, um modelo cobre só dois idiomas e vários não fazem streaming. Use isso para reduzir a lista, não para apontar um vencedor, e depois rode os dois ou três finalistas no seu próprio áudio. Esse último passo nenhum teste simples faz por você.


Fontes

Custos e latências medidos na Synthorai em 2026-06-25 em treze modelos e cinco idiomas (inglês, mandarim, hindi, espanhol, francês), via o header x-total-cost-usd e timing de SSE. O áudio foi gerado por text-to-speech e propositalmente fácil, então os números de precisão servem como verificação de piso, não como benchmark de qualidade; fala do mundo real com sotaques e ruído separaria esses modelos de outra forma. A latência varia de execução para execução. Os preços listados são as tarifas desta plataforma naquela data. Confira os preços atuais antes de se basear neles.

← Voltar ao blog