一個簡單的語音轉錄測試能告訴你什麼，又不能告訴你什麼

2026年6月25日 · transcription · asr · speech-to-text · cost

這個測試是什麼，又不是什麼
兩種模型類型，三種請求模式
轉錄如何計費
成本
準確度與語言覆蓋
串流輸出
對重複音訊做快取
先確認哪些事，又有哪些得自己測
結論
來源

Synthorai 現在支援音訊轉錄，一個 endpoint 後面接了兩個家族共十三個模型。

這一個 endpoint 藏了不少工作量，因為這些模型原生介面幾乎長得完全不一樣。whisper-1 接收 multipart 檔案上傳，回傳 {text}。gpt-4o-transcribe 用同樣的上傳方式，但多回傳 token 用量。Gemini 根本不是轉錄 API：你得把音訊 base64 編碼進一個 JSON 的 generateContent 請求，再從 candidates[0].content.parts[].text 把逐字稿挖出來。ByteDance 的 seed-asr 走的是 BytePlus AUC 協定，Google 的 chirp 系列則是 Cloud Speech-to-Text 辨識器，要用 OAuth 存取。

不同的 endpoint、不同的認證、不同的回應格式，每接一個就是多一份整合工作。透過閘道，這一切就是一個 OpenAI 相容的呼叫：把 gpt-4o-mini-transcribe 換成 gemini-2.5-flash-lite 或 seed-asr-bigmodel，你程式碼裡其他地方完全不用動。

這個呼叫就是 OpenAI 相容的轉錄 endpoint，所以如果你已經在用 Whisper，可以直接替換：

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite

from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

逐字稿在 text 裡回傳，計費成本則放在 x-total-cost-usd 回應標頭中。

我們讓這十三個模型都跑了同一個簡單測試，而這個測試是什麼，決定了下面每一個數字的意義。

這個測試是什麼，又不是什麼

我們用沒有專有名詞的日常段落（一個早晨、天氣、上市場買東西），以標準的文字轉語音聲音，在全世界使用人口最多的五種語言裡各產生一段，然後把每段音訊都丟進這十三個模型轉錄。每段音訊大約 12 到 15 秒，約 40 個字的正常語速，中間沒有長停頓，編碼為 16 kHz 單聲道 16-bit PCM WAV（256 kbps，每分鐘約 2 MB）。文字本身就是標準答案，時長也是精確的。

這是刻意設計的簡單情境：乾淨、有腳本、單一講者，沒有口音、沒有雜訊、沒有行話。所以它適合用來衡量那些跟音訊難度無關的東西。它量的是成本、延遲、模型到底接不接受哪些語言，以及能不能串流，這些都是穩定的事實。

它不是品質基準測試。真實錄音有口音、背景雜訊、領域詞彙、講者重疊，加上長達一小時的時長，這些都會把這些模型拉開差距，而乾淨語音永遠拉不開，這裡的任何數字都預測不了那種情況。把準確度數字當成一道及格線，而不是排名；而成本、語言覆蓋和串流的結果，才是你真正能依靠的基準。

兩種模型類型，三種請求模式

這十三個模型分成兩類：

原生多模態模型（六個，Google 的 Gemini 系列：gemini-2.5-flash-lite、gemini-3.1-flash-lite-preview、gemini-2.5-flash、gemini-3-flash-preview、gemini-3.5-flash、gemini-2.5-pro）。通用的音訊與文字模型，轉錄只是它多模態能力的附帶產物。
專用 ASR 模型（七個：OpenAI 的 whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe；位元組跳動的 seed-asr-bigmodel；阿里巴巴的 qwen3-asr-flash；Google 的 chirp-2 和 chirp-3）。專為語音打造。

送出音訊的方式則有三種：

檔案進，批次出：上傳完整的錄音，在一次回應裡拿到完整的逐字稿。所有模型都支援。
檔案進，串流文字出：一樣是上傳檔案，但逐字稿會邊產生邊透過 SSE 串流回來。有些模型支援，有些只能批次處理。
音訊串流進，文字串流出：對著現場麥克風或通話做即時辨識。還在開發中，尚未開放，所以下面講的都是前兩種模式。

轉錄如何計費

計費有兩種形式。按音訊分鐘（whisper-1、seed-asr、qwen3-asr-flash、Chirp 系列模型）：不管錄音內容是什麼，按錄音的實際時長付費。按 token（gpt-4o 和 Gemini 系列模型）：音訊以固定費率轉成 token，你付的是這些輸入 token 加上逐字稿的輸出 token，所以靜音的部分比密集語音便宜。

按 token 計費有個陷阱：列出的輸入費率是文字的費率，但音訊計費更高（gpt-4o-mini-transcribe 標的輸入是 $1.25/M，音訊卻按 $3/M 計費）。照文字費率估算就會估太低。閘道會在 x-total-cost-usd 標頭裡回傳實際費用，所以直接讀這個，別照價目表猜。

成本

這是測試裡量得最乾淨的一塊，而且差距也最大。以下是每分鐘成本，數字取自帳單 header：

模型	類型	每分鐘成本	延遲	串流
`gemini-2.5-flash-lite`	multimodal	$0.0006	≈4s	chunks
`gemini-3.1-flash-lite-preview`	multimodal	$0.0016	≈3s	chunks
`seed-asr-bigmodel`	dedicated	$0.0020	≈10s	no
`qwen3-asr-flash`	dedicated	$0.0021	≈3s	no
`gemini-2.5-flash`	multimodal	$0.0026	≈2s	chunks
`gpt-4o-mini-transcribe`	dedicated	$0.0031	≈3s	token-by-token
`gemini-3-flash-preview`	multimodal	$0.0035	≈4s	chunks
`whisper-1`	dedicated	$0.0060	≈4s	no
`gpt-4o-transcribe`	dedicated	$0.0062	≈2s	token-by-token
`gemini-2.5-pro`	multimodal	$0.0082	≈5s	chunks
`chirp-2`	dedicated	$0.0164	≈3s	no
`chirp-3`	dedicated	$0.0164	≈4s	no
`gemini-3.5-flash`	multimodal	$0.0178	≈5s	chunks

從每分鐘 $0.0006 的 gemini-2.5-flash-lite，到 $0.0178 的 gemini-3.5-flash，價差約 30 倍。有兩點值得留意，都跟價格有關，跟品質無關。最便宜的模型是一款 Gemini flash-lite，比最便宜的專用 ASR 還要便宜三倍。而在 Gemini 家族內部，這次測試的價格和準確度毫無關聯，所以更大、更貴的模型不會自動就是更穩的選擇；這反而是個理由，讓你在花錢用大模型之前，先拿便宜的那款在自己的音檔上跑一遍 benchmark。

這些數字在你自己的檔案上會怎麼變，取決於計費方式。按分鐘計費的模型（whisper-1、seed-asr、qwen3-asr-flash、兩款 Chirp）只看時長，所以費率可以直接套用：十分鐘的音檔就是每分鐘費率的十倍，跟格式或內容無關。

按 token 計費的模型（gpt-4o 和 Gemini 那幾列）的輸入成本是隨時長變動，而不是檔案大小，因為供應商會在做 tokenize 之前先重新取樣音訊。同一段話，一個是高位元率的 320 kbps MP3，一個是精簡的 16 kHz WAV，tokenize 後的成本差不多，所以壓縮檔案省的是儲存空間，不是轉錄費用。真正會影響 token 計費的，是實際講了多少話：我們的片段語速正常、沒有空白靜音，所以比這更密集或更安靜的音訊，在輸出 token 上會稍微多算或少算一點。每種情況下，x-total-cost-usd header 都是唯一的真實依據。

準確度與語言覆蓋

在英文、西班牙文、法文上，只要模型支援該語言，錯誤率大致都是 0%。這是基本門檻，所有模型都過得了。要到普通話和印地語，這個原本算簡單的測試才開始露出破綻。不過這只是提示你自己的測試該往哪裡集中，不是最終定論：

模型	普通話（CER）	印地語（WER）	覆蓋語言
`gemini-2.5-flash-lite`	0%	13%	全部五種
`gemini-3.1-flash-lite-preview`	0%	15%	全部五種
`seed-asr-bigmodel`	0%	失敗	僅英文 + 中文
`qwen3-asr-flash`	0%	15%	全部五種
`gemini-2.5-flash`	0%	15%	全部五種
`gpt-4o-mini-transcribe`	0%	4%	全部五種
`gemini-3-flash-preview`	16%	7%	全部五種
`whisper-1`	0%	22%	全部五種
`gpt-4o-transcribe`	0%	13%	全部五種
`gemini-2.5-pro`	0%	15%	全部五種
`chirp-2`	16%	15%	全部五種
`chirp-3`	2%	15%	全部五種
`gemini-3.5-flash`	0%	15%	全部五種

這裡真正關鍵的是覆蓋語言，不是準確度。seed-asr 對印地語、西班牙文、法文回傳的逐字稿完全沒用：它是英文加中文的模型，所以只有當你的音訊是這兩種語言時才考慮它。其餘模型都能處理全部五種語言。

印地語的差距、以及普通話上的失誤（chirp-2、某個 Gemini）說明這些模型在你比較難的語言上值得先測過再信任，並不代表哪個就一定比另一個好。這些絕對數字被合成語音和評分方式拉高了，而且每次跑都會變動。誠實的結論是：在主要語言的乾淨語音上，這些模型的準確度並不會拉開差距，所以這個測試也沒辦法靠它告訴你該選誰。

串流輸出

模型能不能串流逐字稿是一項能力，不是品質的高下，而它把這份名單一分為二。按分鐘計費的模型（whisper-1、seed-asr、qwen3-asr-flash，以及兩個 Chirp）只支援批次處理；你要求串流時，閘道會回傳 400。gpt-4o 系列會逐 token 串流：gpt-4o-transcribe 約一秒就回傳開頭幾個字，再陸續補齊其餘內容，這正是即時感 UI 需要的。Gemini 系列技術上也算串流，但分成三到六個大區塊，而且第一塊到達時整份逐字稿差不多也完成了，所以幾乎沒什麼用。成本和批次一樣。要串流就加上 stream=true：

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

對重複音訊做快取

快取是兩種計費模式再次分道揚鑣的地方。按分鐘計費的模型沒辦法快取：我們把同一段音訊送給 whisper-1 五次，每次都付一模一樣的 $0.015478，因為帳單只看時長。按 token 計費的 Gemini 模型則可以。把同一個檔案反覆送出，Gemini 的隱式快取會重用音訊 token：一段 155 秒的音訊送五次，gemini-2.5-flash 在其中兩次重複時從 $0.0054 降到 $0.0026，省了約 51%，gemini-2.5-pro 則約降 39%。

有兩點讓它不是穩賺。它是盡力而為的（best-effort），所以有些重複命中快取，有些則付全價；而且音訊必須超過 Gemini 的 token 下限，大約一分鐘以上，這份測試裡其他地方用的短音訊都達不到。gpt-4o 系列沒有列出快取費率，只表現出一般的逐次變動。所以如果你的工作負載會重複轉錄同一批檔案，快取在按 token 計費的模型上是實打實的折扣，在按分鐘計費的模型上則完全沒有。

先確認哪些事，又有哪些得自己測

這份測試沒辦法告訴你哪個模型在你的錄音上最準。它能告訴你的，是在跑自己的評測之前該先用哪些條件篩掉一批：

語言。 確認模型支援你需要的每一種語言。seed-asr 只支援英文和中文；其餘十二個模型都能處理我們試的全部五種語言。這是硬性門檻，不是偏好問題。
串流。 如果你需要即時逐字稿，只有 gpt-4o 系列模型會逐 token 串流輸出；按分鐘計費的模型只能批次處理，Gemini 的串流粒度也很粗。
成本。 價差大約 30 倍。gemini-2.5-flash-lite 最便宜，而且一樣支援多語言；Chirp 系列和最大的 Gemini 最貴。同系列裡更大的模型在這些簡單片段上並沒有撐起它的溢價，所以別在沒驗證的情況下就認定自己需要它。如果你經常重複轉錄同一批檔案，按 token 計費的 Gemini 模型也能像前面講的那樣快取音訊。

幾個模型通過這些條件之後，剩下的問題——每個模型在你自己帶有口音、雜訊和特定詞彙的音訊上到底有多準——就只能靠你自己回答了。再乾淨的語音 benchmark，也取代不了拿剩下的模型去跑真實錄音。

結論

在主要語言的乾淨、照稿朗讀的語音上，這十三個模型準確度都差不多。這正是這份測試最有用的一點：準確度不是你該拿來做選擇的那條軸。它真正釐清、而且確實有差異的，是底層條件：成本相差約 30 倍，有一個模型只支援兩種語言，還有幾個沒辦法串流。用這些條件去縮小範圍，而不是用它們來宣布贏家，接著把剩下的兩三個模型拿到你自己的音訊上去跑。最後這一步，沒有任何簡單的測試能替你完成。

來源

成本與延遲於 2026-06-25 在 Synthorai 上量測，涵蓋十三個模型和五種語言（英文、中文、印地語、西班牙文、法文），透過 x-total-cost-usd 標頭和 SSE 計時取得。音訊由 text-to-speech 產生，刻意做得很容易，所以這些準確度數字是底線檢查，而不是品質 benchmark；帶有口音和雜訊的真實語音會讓這些模型拉開不同的差距。延遲每次跑都會變動。標示價格為本平台在該日期的費率。在依賴這些數字之前，請先確認當前的定價。

← 返回部落格