一個簡單的語音轉錄測試能告訴你什麼,又不能告訴你什麼

一個簡單的語音轉錄測試能告訴你什麼,又不能告訴你什麼

目錄
  1. 這個測試是什麼,又不是什麼
  2. 兩種模型類型,三種請求模式
  3. 轉錄如何計費
  4. 成本
  5. 準確度與語言覆蓋
  6. 串流輸出
  7. 對重複音訊做快取
  8. 先確認哪些事,又有哪些得自己測
  9. 結論
  10. 來源

Synthorai 現在支援音訊轉錄,一個 endpoint 後面接了兩個家族共十三個模型。

這一個 endpoint 藏了不少工作量,因為這些模型原生介面幾乎長得完全不一樣。whisper-1 接收 multipart 檔案上傳,回傳 {text}gpt-4o-transcribe 用同樣的上傳方式,但多回傳 token 用量。Gemini 根本不是轉錄 API:你得把音訊 base64 編碼進一個 JSON 的 generateContent 請求,再從 candidates[0].content.parts[].text 把逐字稿挖出來。ByteDance 的 seed-asr 走的是 BytePlus AUC 協定,Google 的 chirp 系列則是 Cloud Speech-to-Text 辨識器,要用 OAuth 存取。

不同的 endpoint、不同的認證、不同的回應格式,每接一個就是多一份整合工作。透過閘道,這一切就是一個 OpenAI 相容的呼叫:把 gpt-4o-mini-transcribe 換成 gemini-2.5-flash-liteseed-asr-bigmodel,你程式碼裡其他地方完全不用動。

這個呼叫就是 OpenAI 相容的轉錄 endpoint,所以如果你已經在用 Whisper,可以直接替換:

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite
from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

逐字稿在 text 裡回傳,計費成本則放在 x-total-cost-usd 回應標頭中。

我們讓這十三個模型都跑了同一個簡單測試,而這個測試是什麼,決定了下面每一個數字的意義。


這個測試是什麼,又不是什麼

我們用沒有專有名詞的日常段落(一個早晨、天氣、上市場買東西),以標準的文字轉語音聲音,在全世界使用人口最多的五種語言裡各產生一段,然後把每段音訊都丟進這十三個模型轉錄。每段音訊大約 12 到 15 秒,約 40 個字的正常語速,中間沒有長停頓,編碼為 16 kHz 單聲道 16-bit PCM WAV(256 kbps,每分鐘約 2 MB)。文字本身就是標準答案,時長也是精確的。

這是刻意設計的簡單情境:乾淨、有腳本、單一講者,沒有口音、沒有雜訊、沒有行話。所以它適合用來衡量那些跟音訊難度無關的東西。它量的是成本、延遲、模型到底接不接受哪些語言,以及能不能串流,這些都是穩定的事實。

它不是品質基準測試。真實錄音有口音、背景雜訊、領域詞彙、講者重疊,加上長達一小時的時長,這些都會把這些模型拉開差距,而乾淨語音永遠拉不開,這裡的任何數字都預測不了那種情況。把準確度數字當成一道及格線,而不是排名;而成本、語言覆蓋和串流的結果,才是你真正能依靠的基準。

兩種模型類型,三種請求模式

這十三個模型分成兩類:

  • 原生多模態模型(六個,Google 的 Gemini 系列:gemini-2.5-flash-litegemini-3.1-flash-lite-previewgemini-2.5-flashgemini-3-flash-previewgemini-3.5-flashgemini-2.5-pro)。通用的音訊與文字模型,轉錄只是它多模態能力的附帶產物。
  • 專用 ASR 模型(七個:OpenAI 的 whisper-1gpt-4o-transcribegpt-4o-mini-transcribe;位元組跳動的 seed-asr-bigmodel;阿里巴巴的 qwen3-asr-flash;Google 的 chirp-2chirp-3)。專為語音打造。

送出音訊的方式則有三種:

  • 檔案進,批次出:上傳完整的錄音,在一次回應裡拿到完整的逐字稿。所有模型都支援。
  • 檔案進,串流文字出:一樣是上傳檔案,但逐字稿會邊產生邊透過 SSE 串流回來。有些模型支援,有些只能批次處理。
  • 音訊串流進,文字串流出:對著現場麥克風或通話做即時辨識。還在開發中,尚未開放,所以下面講的都是前兩種模式。

轉錄如何計費

計費有兩種形式。按音訊分鐘whisper-1seed-asrqwen3-asr-flash、Chirp 系列模型):不管錄音內容是什麼,按錄音的實際時長付費。按 tokengpt-4o 和 Gemini 系列模型):音訊以固定費率轉成 token,你付的是這些輸入 token 加上逐字稿的輸出 token,所以靜音的部分比密集語音便宜。

按 token 計費有個陷阱:列出的輸入費率是文字的費率,但音訊計費更高(gpt-4o-mini-transcribe 標的輸入是 $1.25/M,音訊卻按 $3/M 計費)。照文字費率估算就會估太低。閘道會在 x-total-cost-usd 標頭裡回傳實際費用,所以直接讀這個,別照價目表猜。

成本

這是測試裡量得最乾淨的一塊,而且差距也最大。以下是每分鐘成本,數字取自帳單 header:

模型類型每分鐘成本延遲串流
gemini-2.5-flash-litemultimodal$0.0006≈4schunks
gemini-3.1-flash-lite-previewmultimodal$0.0016≈3schunks
seed-asr-bigmodeldedicated$0.0020≈10sno
qwen3-asr-flashdedicated$0.0021≈3sno
gemini-2.5-flashmultimodal$0.0026≈2schunks
gpt-4o-mini-transcribededicated$0.0031≈3stoken-by-token
gemini-3-flash-previewmultimodal$0.0035≈4schunks
whisper-1dedicated$0.0060≈4sno
gpt-4o-transcribededicated$0.0062≈2stoken-by-token
gemini-2.5-promultimodal$0.0082≈5schunks
chirp-2dedicated$0.0164≈3sno
chirp-3dedicated$0.0164≈4sno
gemini-3.5-flashmultimodal$0.0178≈5schunks

從每分鐘 $0.0006 的 gemini-2.5-flash-lite,到 $0.0178 的 gemini-3.5-flash,價差約 30 倍。有兩點值得留意,都跟價格有關,跟品質無關。最便宜的模型是一款 Gemini flash-lite,比最便宜的專用 ASR 還要便宜三倍。而在 Gemini 家族內部,這次測試的價格和準確度毫無關聯,所以更大、更貴的模型不會自動就是更穩的選擇;這反而是個理由,讓你在花錢用大模型之前,先拿便宜的那款在自己的音檔上跑一遍 benchmark。

這些數字在你自己的檔案上會怎麼變,取決於計費方式。按分鐘計費的模型(whisper-1seed-asrqwen3-asr-flash、兩款 Chirp)只看時長,所以費率可以直接套用:十分鐘的音檔就是每分鐘費率的十倍,跟格式或內容無關。

按 token 計費的模型(gpt-4o 和 Gemini 那幾列)的輸入成本是隨時長變動,而不是檔案大小,因為供應商會在做 tokenize 之前先重新取樣音訊。同一段話,一個是高位元率的 320 kbps MP3,一個是精簡的 16 kHz WAV,tokenize 後的成本差不多,所以壓縮檔案省的是儲存空間,不是轉錄費用。真正會影響 token 計費的,是實際講了多少話:我們的片段語速正常、沒有空白靜音,所以比這更密集或更安靜的音訊,在輸出 token 上會稍微多算或少算一點。每種情況下,x-total-cost-usd header 都是唯一的真實依據。

準確度與語言覆蓋

在英文、西班牙文、法文上,只要模型支援該語言,錯誤率大致都是 0%。這是基本門檻,所有模型都過得了。要到普通話和印地語,這個原本算簡單的測試才開始露出破綻。不過這只是提示你自己的測試該往哪裡集中,不是最終定論:

模型普通話(CER)印地語(WER)覆蓋語言
gemini-2.5-flash-lite0%13%全部五種
gemini-3.1-flash-lite-preview0%15%全部五種
seed-asr-bigmodel0%失敗僅英文 + 中文
qwen3-asr-flash0%15%全部五種
gemini-2.5-flash0%15%全部五種
gpt-4o-mini-transcribe0%4%全部五種
gemini-3-flash-preview16%7%全部五種
whisper-10%22%全部五種
gpt-4o-transcribe0%13%全部五種
gemini-2.5-pro0%15%全部五種
chirp-216%15%全部五種
chirp-32%15%全部五種
gemini-3.5-flash0%15%全部五種

這裡真正關鍵的是覆蓋語言,不是準確度。seed-asr 對印地語、西班牙文、法文回傳的逐字稿完全沒用:它是英文加中文的模型,所以只有當你的音訊是這兩種語言時才考慮它。其餘模型都能處理全部五種語言。

印地語的差距、以及普通話上的失誤(chirp-2、某個 Gemini)說明這些模型在你比較難的語言上值得先測過再信任,並不代表哪個就一定比另一個好。這些絕對數字被合成語音和評分方式拉高了,而且每次跑都會變動。誠實的結論是:在主要語言的乾淨語音上,這些模型的準確度並不會拉開差距,所以這個測試也沒辦法靠它告訴你該選誰。

串流輸出

模型能不能串流逐字稿是一項能力,不是品質的高下,而它把這份名單一分為二。按分鐘計費的模型(whisper-1seed-asrqwen3-asr-flash,以及兩個 Chirp)只支援批次處理;你要求串流時,閘道會回傳 400。gpt-4o 系列會逐 token 串流:gpt-4o-transcribe 約一秒就回傳開頭幾個字,再陸續補齊其餘內容,這正是即時感 UI 需要的。Gemini 系列技術上也算串流,但分成三到六個大區塊,而且第一塊到達時整份逐字稿差不多也完成了,所以幾乎沒什麼用。成本和批次一樣。要串流就加上 stream=true

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

對重複音訊做快取

快取是兩種計費模式再次分道揚鑣的地方。按分鐘計費的模型沒辦法快取:我們把同一段音訊送給 whisper-1 五次,每次都付一模一樣的 $0.015478,因為帳單只看時長。按 token 計費的 Gemini 模型則可以。把同一個檔案反覆送出,Gemini 的隱式快取會重用音訊 token:一段 155 秒的音訊送五次,gemini-2.5-flash 在其中兩次重複時從 $0.0054 降到 $0.0026,省了約 51%,gemini-2.5-pro 則約降 39%。

有兩點讓它不是穩賺。它是盡力而為的(best-effort),所以有些重複命中快取,有些則付全價;而且音訊必須超過 Gemini 的 token 下限,大約一分鐘以上,這份測試裡其他地方用的短音訊都達不到。gpt-4o 系列沒有列出快取費率,只表現出一般的逐次變動。所以如果你的工作負載會重複轉錄同一批檔案,快取在按 token 計費的模型上是實打實的折扣,在按分鐘計費的模型上則完全沒有。

先確認哪些事,又有哪些得自己測

這份測試沒辦法告訴你哪個模型在你的錄音上最準。它能告訴你的,是在跑自己的評測之前該先用哪些條件篩掉一批:

  • 語言。 確認模型支援你需要的每一種語言。seed-asr 只支援英文和中文;其餘十二個模型都能處理我們試的全部五種語言。這是硬性門檻,不是偏好問題。
  • 串流。 如果你需要即時逐字稿,只有 gpt-4o 系列模型會逐 token 串流輸出;按分鐘計費的模型只能批次處理,Gemini 的串流粒度也很粗。
  • 成本。 價差大約 30 倍。gemini-2.5-flash-lite 最便宜,而且一樣支援多語言;Chirp 系列和最大的 Gemini 最貴。同系列裡更大的模型在這些簡單片段上並沒有撐起它的溢價,所以別在沒驗證的情況下就認定自己需要它。如果你經常重複轉錄同一批檔案,按 token 計費的 Gemini 模型也能像前面講的那樣快取音訊。

幾個模型通過這些條件之後,剩下的問題——每個模型在你自己帶有口音、雜訊和特定詞彙的音訊上到底有多準——就只能靠你自己回答了。再乾淨的語音 benchmark,也取代不了拿剩下的模型去跑真實錄音。

結論

在主要語言的乾淨、照稿朗讀的語音上,這十三個模型準確度都差不多。這正是這份測試最有用的一點:準確度不是你該拿來做選擇的那條軸。它真正釐清、而且確實有差異的,是底層條件:成本相差約 30 倍,有一個模型只支援兩種語言,還有幾個沒辦法串流。用這些條件去縮小範圍,而不是用它們來宣布贏家,接著把剩下的兩三個模型拿到你自己的音訊上去跑。最後這一步,沒有任何簡單的測試能替你完成。


來源

成本與延遲於 2026-06-25 在 Synthorai 上量測,涵蓋十三個模型和五種語言(英文、中文、印地語、西班牙文、法文),透過 x-total-cost-usd 標頭和 SSE 計時取得。音訊由 text-to-speech 產生,刻意做得很容易,所以這些準確度數字是底線檢查,而不是品質 benchmark;帶有口音和雜訊的真實語音會讓這些模型拉開不同的差距。延遲每次跑都會變動。標示價格為本平台在該日期的費率。在依賴這些數字之前,請先確認當前的定價。

← 返回部落格