一個簡單的語音轉錄測試能告訴你什麼,又不能告訴你什麼
Synthorai 現在支援音訊轉錄,一個 endpoint 後面接了兩個家族共十三個模型。
這一個 endpoint 藏了不少工作量,因為這些模型原生介面幾乎長得完全不一樣。whisper-1 接收 multipart 檔案上傳,回傳 {text}。gpt-4o-transcribe 用同樣的上傳方式,但多回傳 token 用量。Gemini 根本不是轉錄 API:你得把音訊 base64 編碼進一個 JSON 的 generateContent 請求,再從 candidates[0].content.parts[].text 把逐字稿挖出來。ByteDance 的 seed-asr 走的是 BytePlus AUC 協定,Google 的 chirp 系列則是 Cloud Speech-to-Text 辨識器,要用 OAuth 存取。
不同的 endpoint、不同的認證、不同的回應格式,每接一個就是多一份整合工作。透過閘道,這一切就是一個 OpenAI 相容的呼叫:把 gpt-4o-mini-transcribe 換成 gemini-2.5-flash-lite 或 seed-asr-bigmodel,你程式碼裡其他地方完全不用動。
這個呼叫就是 OpenAI 相容的轉錄 endpoint,所以如果你已經在用 Whisper,可以直接替換:
curl https://synthorai.io/v1/audio/transcriptions \
-H "Authorization: Bearer $SYNTHORAI_API_KEY" \
-F file=@meeting.mp3 \
-F model=gemini-2.5-flash-lite
from openai import OpenAI
client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")
with open("meeting.mp3", "rb") as f:
result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)
print(result.text)
逐字稿在 text 裡回傳,計費成本則放在 x-total-cost-usd 回應標頭中。
我們讓這十三個模型都跑了同一個簡單測試,而這個測試是什麼,決定了下面每一個數字的意義。
這個測試是什麼,又不是什麼
我們用沒有專有名詞的日常段落(一個早晨、天氣、上市場買東西),以標準的文字轉語音聲音,在全世界使用人口最多的五種語言裡各產生一段,然後把每段音訊都丟進這十三個模型轉錄。每段音訊大約 12 到 15 秒,約 40 個字的正常語速,中間沒有長停頓,編碼為 16 kHz 單聲道 16-bit PCM WAV(256 kbps,每分鐘約 2 MB)。文字本身就是標準答案,時長也是精確的。
這是刻意設計的簡單情境:乾淨、有腳本、單一講者,沒有口音、沒有雜訊、沒有行話。所以它適合用來衡量那些跟音訊難度無關的東西。它量的是成本、延遲、模型到底接不接受哪些語言,以及能不能串流,這些都是穩定的事實。
它不是品質基準測試。真實錄音有口音、背景雜訊、領域詞彙、講者重疊,加上長達一小時的時長,這些都會把這些模型拉開差距,而乾淨語音永遠拉不開,這裡的任何數字都預測不了那種情況。把準確度數字當成一道及格線,而不是排名;而成本、語言覆蓋和串流的結果,才是你真正能依靠的基準。
兩種模型類型,三種請求模式
這十三個模型分成兩類:
- 原生多模態模型(六個,Google 的 Gemini 系列:
gemini-2.5-flash-lite、gemini-3.1-flash-lite-preview、gemini-2.5-flash、gemini-3-flash-preview、gemini-3.5-flash、gemini-2.5-pro)。通用的音訊與文字模型,轉錄只是它多模態能力的附帶產物。 - 專用 ASR 模型(七個:OpenAI 的
whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe;位元組跳動的seed-asr-bigmodel;阿里巴巴的qwen3-asr-flash;Google 的chirp-2和chirp-3)。專為語音打造。
送出音訊的方式則有三種:
- 檔案進,批次出:上傳完整的錄音,在一次回應裡拿到完整的逐字稿。所有模型都支援。
- 檔案進,串流文字出:一樣是上傳檔案,但逐字稿會邊產生邊透過 SSE 串流回來。有些模型支援,有些只能批次處理。
- 音訊串流進,文字串流出:對著現場麥克風或通話做即時辨識。還在開發中,尚未開放,所以下面講的都是前兩種模式。
轉錄如何計費
計費有兩種形式。按音訊分鐘(whisper-1、seed-asr、qwen3-asr-flash、Chirp 系列模型):不管錄音內容是什麼,按錄音的實際時長付費。按 token(gpt-4o 和 Gemini 系列模型):音訊以固定費率轉成 token,你付的是這些輸入 token 加上逐字稿的輸出 token,所以靜音的部分比密集語音便宜。
按 token 計費有個陷阱:列出的輸入費率是文字的費率,但音訊計費更高(gpt-4o-mini-transcribe 標的輸入是 $1.25/M,音訊卻按 $3/M 計費)。照文字費率估算就會估太低。閘道會在 x-total-cost-usd 標頭裡回傳實際費用,所以直接讀這個,別照價目表猜。
成本
這是測試裡量得最乾淨的一塊,而且差距也最大。以下是每分鐘成本,數字取自帳單 header:
| 模型 | 類型 | 每分鐘成本 | 延遲 | 串流 |
|---|---|---|---|---|
gemini-2.5-flash-lite | multimodal | $0.0006 | ≈4s | chunks |
gemini-3.1-flash-lite-preview | multimodal | $0.0016 | ≈3s | chunks |
seed-asr-bigmodel | dedicated | $0.0020 | ≈10s | no |
qwen3-asr-flash | dedicated | $0.0021 | ≈3s | no |
gemini-2.5-flash | multimodal | $0.0026 | ≈2s | chunks |
gpt-4o-mini-transcribe | dedicated | $0.0031 | ≈3s | token-by-token |
gemini-3-flash-preview | multimodal | $0.0035 | ≈4s | chunks |
whisper-1 | dedicated | $0.0060 | ≈4s | no |
gpt-4o-transcribe | dedicated | $0.0062 | ≈2s | token-by-token |
gemini-2.5-pro | multimodal | $0.0082 | ≈5s | chunks |
chirp-2 | dedicated | $0.0164 | ≈3s | no |
chirp-3 | dedicated | $0.0164 | ≈4s | no |
gemini-3.5-flash | multimodal | $0.0178 | ≈5s | chunks |
從每分鐘 $0.0006 的 gemini-2.5-flash-lite,到 $0.0178 的 gemini-3.5-flash,價差約 30 倍。有兩點值得留意,都跟價格有關,跟品質無關。最便宜的模型是一款 Gemini flash-lite,比最便宜的專用 ASR 還要便宜三倍。而在 Gemini 家族內部,這次測試的價格和準確度毫無關聯,所以更大、更貴的模型不會自動就是更穩的選擇;這反而是個理由,讓你在花錢用大模型之前,先拿便宜的那款在自己的音檔上跑一遍 benchmark。
這些數字在你自己的檔案上會怎麼變,取決於計費方式。按分鐘計費的模型(whisper-1、seed-asr、qwen3-asr-flash、兩款 Chirp)只看時長,所以費率可以直接套用:十分鐘的音檔就是每分鐘費率的十倍,跟格式或內容無關。
按 token 計費的模型(gpt-4o 和 Gemini 那幾列)的輸入成本是隨時長變動,而不是檔案大小,因為供應商會在做 tokenize 之前先重新取樣音訊。同一段話,一個是高位元率的 320 kbps MP3,一個是精簡的 16 kHz WAV,tokenize 後的成本差不多,所以壓縮檔案省的是儲存空間,不是轉錄費用。真正會影響 token 計費的,是實際講了多少話:我們的片段語速正常、沒有空白靜音,所以比這更密集或更安靜的音訊,在輸出 token 上會稍微多算或少算一點。每種情況下,x-total-cost-usd header 都是唯一的真實依據。
準確度與語言覆蓋
在英文、西班牙文、法文上,只要模型支援該語言,錯誤率大致都是 0%。這是基本門檻,所有模型都過得了。要到普通話和印地語,這個原本算簡單的測試才開始露出破綻。不過這只是提示你自己的測試該往哪裡集中,不是最終定論:
| 模型 | 普通話(CER) | 印地語(WER) | 覆蓋語言 |
|---|---|---|---|
gemini-2.5-flash-lite | 0% | 13% | 全部五種 |
gemini-3.1-flash-lite-preview | 0% | 15% | 全部五種 |
seed-asr-bigmodel | 0% | 失敗 | 僅英文 + 中文 |
qwen3-asr-flash | 0% | 15% | 全部五種 |
gemini-2.5-flash | 0% | 15% | 全部五種 |
gpt-4o-mini-transcribe | 0% | 4% | 全部五種 |
gemini-3-flash-preview | 16% | 7% | 全部五種 |
whisper-1 | 0% | 22% | 全部五種 |
gpt-4o-transcribe | 0% | 13% | 全部五種 |
gemini-2.5-pro | 0% | 15% | 全部五種 |
chirp-2 | 16% | 15% | 全部五種 |
chirp-3 | 2% | 15% | 全部五種 |
gemini-3.5-flash | 0% | 15% | 全部五種 |
這裡真正關鍵的是覆蓋語言,不是準確度。seed-asr 對印地語、西班牙文、法文回傳的逐字稿完全沒用:它是英文加中文的模型,所以只有當你的音訊是這兩種語言時才考慮它。其餘模型都能處理全部五種語言。
印地語的差距、以及普通話上的失誤(chirp-2、某個 Gemini)說明這些模型在你比較難的語言上值得先測過再信任,並不代表哪個就一定比另一個好。這些絕對數字被合成語音和評分方式拉高了,而且每次跑都會變動。誠實的結論是:在主要語言的乾淨語音上,這些模型的準確度並不會拉開差距,所以這個測試也沒辦法靠它告訴你該選誰。
串流輸出
模型能不能串流逐字稿是一項能力,不是品質的高下,而它把這份名單一分為二。按分鐘計費的模型(whisper-1、seed-asr、qwen3-asr-flash,以及兩個 Chirp)只支援批次處理;你要求串流時,閘道會回傳 400。gpt-4o 系列會逐 token 串流:gpt-4o-transcribe 約一秒就回傳開頭幾個字,再陸續補齊其餘內容,這正是即時感 UI 需要的。Gemini 系列技術上也算串流,但分成三到六個大區塊,而且第一塊到達時整份逐字稿差不多也完成了,所以幾乎沒什麼用。成本和批次一樣。要串流就加上 stream=true:
curl -N https://synthorai.io/v1/audio/transcriptions \
-H "Authorization: Bearer $SYNTHORAI_API_KEY" \
-F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...
對重複音訊做快取
快取是兩種計費模式再次分道揚鑣的地方。按分鐘計費的模型沒辦法快取:我們把同一段音訊送給 whisper-1 五次,每次都付一模一樣的 $0.015478,因為帳單只看時長。按 token 計費的 Gemini 模型則可以。把同一個檔案反覆送出,Gemini 的隱式快取會重用音訊 token:一段 155 秒的音訊送五次,gemini-2.5-flash 在其中兩次重複時從 $0.0054 降到 $0.0026,省了約 51%,gemini-2.5-pro 則約降 39%。
有兩點讓它不是穩賺。它是盡力而為的(best-effort),所以有些重複命中快取,有些則付全價;而且音訊必須超過 Gemini 的 token 下限,大約一分鐘以上,這份測試裡其他地方用的短音訊都達不到。gpt-4o 系列沒有列出快取費率,只表現出一般的逐次變動。所以如果你的工作負載會重複轉錄同一批檔案,快取在按 token 計費的模型上是實打實的折扣,在按分鐘計費的模型上則完全沒有。
先確認哪些事,又有哪些得自己測
這份測試沒辦法告訴你哪個模型在你的錄音上最準。它能告訴你的,是在跑自己的評測之前該先用哪些條件篩掉一批:
- 語言。 確認模型支援你需要的每一種語言。
seed-asr只支援英文和中文;其餘十二個模型都能處理我們試的全部五種語言。這是硬性門檻,不是偏好問題。 - 串流。 如果你需要即時逐字稿,只有
gpt-4o系列模型會逐 token 串流輸出;按分鐘計費的模型只能批次處理,Gemini 的串流粒度也很粗。 - 成本。 價差大約 30 倍。
gemini-2.5-flash-lite最便宜,而且一樣支援多語言;Chirp 系列和最大的 Gemini 最貴。同系列裡更大的模型在這些簡單片段上並沒有撐起它的溢價,所以別在沒驗證的情況下就認定自己需要它。如果你經常重複轉錄同一批檔案,按 token 計費的 Gemini 模型也能像前面講的那樣快取音訊。
幾個模型通過這些條件之後,剩下的問題——每個模型在你自己帶有口音、雜訊和特定詞彙的音訊上到底有多準——就只能靠你自己回答了。再乾淨的語音 benchmark,也取代不了拿剩下的模型去跑真實錄音。
結論
在主要語言的乾淨、照稿朗讀的語音上,這十三個模型準確度都差不多。這正是這份測試最有用的一點:準確度不是你該拿來做選擇的那條軸。它真正釐清、而且確實有差異的,是底層條件:成本相差約 30 倍,有一個模型只支援兩種語言,還有幾個沒辦法串流。用這些條件去縮小範圍,而不是用它們來宣布贏家,接著把剩下的兩三個模型拿到你自己的音訊上去跑。最後這一步,沒有任何簡單的測試能替你完成。
來源
- OpenAI: Speech to text guide
- OpenAI: API pricing
- Google Cloud: Chirp speech models
- BytePlus: Seed-ASR (ByteDance) overview
成本與延遲於 2026-06-25 在 Synthorai 上量測,涵蓋十三個模型和五種語言(英文、中文、印地語、西班牙文、法文),透過 x-total-cost-usd 標頭和 SSE 計時取得。音訊由 text-to-speech 產生,刻意做得很容易,所以這些準確度數字是底線檢查,而不是品質 benchmark;帶有口音和雜訊的真實語音會讓這些模型拉開不同的差距。延遲每次跑都會變動。標示價格為本平台在該日期的費率。在依賴這些數字之前,請先確認當前的定價。