간단한 전사 테스트로 알 수 있는 것과 알 수 없는 것

2026년 6월 25일 · transcription · asr · speech-to-text · cost

이 테스트는 무엇이고, 무엇이 아닌가
모델 두 종류, 요청 방식 세 가지
전사 요금 부과 방식
비용
정확도와 언어 커버리지
스트리밍 출력
반복 오디오 캐싱
먼저 확인할 것, 그리고 직접 테스트해야 할 것
결론
출처

이제 Synthorai 에서 오디오를 전사할 수 있다. 두 계열의 모델 13종을 엔드포인트 하나로 묶었다.

이 엔드포인트 하나 뒤에는 상당한 작업이 숨어 있다. 네이티브 수준에서 보면 이 모델들은 서로 거의 닮은 점이 없기 때문이다. whisper-1 은 multipart 파일 업로드를 받아 {text} 를 돌려준다. gpt-4o-transcribe 는 같은 업로드 방식을 쓰지만 토큰 사용량이 추가된다. Gemini 는 아예 전사 API 가 아니다. 오디오를 base64 로 인코딩해 JSON generateContent 요청에 넣고, candidates[0].content.parts[].text 에서 전사 결과를 꺼내야 한다. ByteDance 의 seed-asr 은 BytePlus AUC 프로토콜을 쓰고, Google 의 chirp 모델은 OAuth 로 접근하는 Cloud Speech-to-Text 인식기다.

엔드포인트도 인증도 응답 형태도 제각각이고, 그때마다 연동 작업이 하나씩 더 늘어난다. 게이트웨이를 거치면 OpenAI 호환 호출 하나로 끝난다. gpt-4o-mini-transcribe 를 gemini-2.5-flash-lite 나 seed-asr-bigmodel 로 바꿔도 코드의 나머지 부분은 그대로다.

이 호출은 OpenAI 호환 전사 엔드포인트라서, 이미 Whisper 를 쓰고 있다면 그대로 끼워 넣으면 된다.

curl https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 \
  -F model=gemini-2.5-flash-lite

from openai import OpenAI

client = OpenAI(base_url="https://synthorai.io/v1", api_key="sk-syn-...")

with open("meeting.mp3", "rb") as f:
    result = client.audio.transcriptions.create(model="gemini-2.5-flash-lite", file=f)

print(result.text)

전사 결과는 text 로 돌아오고, 청구 비용은 x-total-cost-usd 응답 헤더에 담긴다.

13종 전부를 동일한 간단한 테스트에 돌렸다. 그 테스트가 무엇이냐에 따라 아래 모든 숫자가 결정된다.

이 테스트는 무엇이고, 무엇이 아닌가

고유명사가 없는 일상 문장(아침, 날씨, 장보기)을 만들어, 세계에서 가장 많이 쓰이는 5개 언어 각각에 대해 표준 text-to-speech 음성으로 읽게 했다. 그리고 각 클립을 13종 모델 전부로 전사했다. 클립 하나는 약 12~15초로, 보통 속도로 말한 40단어 정도이며 긴 침묵은 없다. 인코딩은 16 kHz 모노 16-bit PCM WAV(256 kbps, 분당 약 2 MB)다. 텍스트가 정답이고 길이는 정확히 측정됐다.

의도적으로 쉬운 케이스다. 억양도 잡음도 전문 용어도 없는, 깨끗한 대본 기반 단일 화자 음성이다. 그래서 음성의 난이도에 좌우되지 않는 항목들을 측정하기에 좋다. 비용, 지연 시간, 각 모델이 어떤 언어를 아예 받아들이는지, 스트리밍이 가능한지를 측정하는데, 이것들은 변하지 않는 사실이다.

품질 벤치마크는 아니다. 억양이 섞인 실제 녹음, 배경 잡음, 도메인 용어, 겹치는 화자, 한 시간짜리 분량은 깨끗한 음성으로는 결코 드러나지 않는 방식으로 이 모델들을 갈라놓는데, 여기 있는 어떤 수치도 그걸 예측해 주지 않는다. 정확도 수치는 순위가 아니라 최저 기준을 확인하는 용도로 읽고, 비용·언어 지원·스트리밍 결과는 실제로 믿고 쓸 수 있는 기준선으로 다루면 된다.

모델 두 종류, 요청 방식 세 가지

13 개 모델은 두 부류로 나뉜다.

네이티브 멀티모달 모델 (6 개, Google 의 Gemini 계열: gemini-2.5-flash-lite, gemini-3.1-flash-lite-preview, gemini-2.5-flash, gemini-3-flash-preview, gemini-3.5-flash, gemini-2.5-pro). 음성과 텍스트를 다루는 범용 모델이고, 멀티모달의 부산물로 전사를 한다.
전용 ASR 모델 (7 개: OpenAI 의 whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe，ByteDance 의 seed-asr-bigmodel，Alibaba 의 qwen3-asr-flash，Google 의 chirp-2 와 chirp-3). 음성을 위해 만들어진 모델이다.

오디오를 보내는 방식은 세 가지다.

파일 입력, 일괄 출력: 녹음 파일을 통째로 업로드하면 전체 전사 결과를 응답 하나로 받는다. 모든 모델이 지원한다.
파일 입력, 텍스트 스트리밍 출력: 같은 방식으로 업로드하지만, 전사가 생성되는 대로 SSE 로 스트리밍된다. 일부 모델만 지원하고, 나머지는 일괄 처리만 된다.
오디오 스트림 입력, 텍스트 스트림 출력: 실시간 마이크나 통화를 그 자리에서 인식한다. 개발 중이라 아직 쓸 수 없으니, 아래 내용은 앞의 두 방식에 관한 것이다.

전사 요금 부과 방식

요금 형태는 두 가지다. 오디오 분 단위 (whisper-1, seed-asr, qwen3-asr-flash, Chirp 모델들): 녹음에 무엇이 담겼든 실제 길이만큼 비용을 낸다. 토큰 단위 (gpt-4o 와 Gemini 모델들): 오디오는 정해진 비율로 토큰화되고, 그 입력 토큰과 전사 출력 토큰에 비용을 낸다. 그래서 빽빽한 말보다 침묵이 더 싸다.

토큰 단위에는 함정이 있다. 표에 적힌 입력 단가는 텍스트 기준이고, 오디오는 더 비싸게 부과된다 (gpt-4o-mini-transcribe 는 입력 $1.25/M 로 표기되어 있지만 오디오는 $3/M 로 부과된다). 텍스트 단가로 계산하면 실제보다 적게 잡힌다. 게이트웨이는 실제 청구액을 x-total-cost-usd 헤더로 돌려주니, 가격표를 보고 추측하지 말고 이 헤더를 읽으면 된다.

비용

이 부분은 테스트가 가장 명확하게 짚어주는 동시에, 편차도 가장 크다. 분당 비용은 청구 헤더에서 가져온 값이다.

Model	Type	Cost / min	Latency	Streams
`gemini-2.5-flash-lite`	multimodal	$0.0006	≈4s	chunks
`gemini-3.1-flash-lite-preview`	multimodal	$0.0016	≈3s	chunks
`seed-asr-bigmodel`	dedicated	$0.0020	≈10s	no
`qwen3-asr-flash`	dedicated	$0.0021	≈3s	no
`gemini-2.5-flash`	multimodal	$0.0026	≈2s	chunks
`gpt-4o-mini-transcribe`	dedicated	$0.0031	≈3s	token-by-token
`gemini-3-flash-preview`	multimodal	$0.0035	≈4s	chunks
`whisper-1`	dedicated	$0.0060	≈4s	no
`gpt-4o-transcribe`	dedicated	$0.0062	≈2s	token-by-token
`gemini-2.5-pro`	multimodal	$0.0082	≈5s	chunks
`chirp-2`	dedicated	$0.0164	≈3s	no
`chirp-3`	dedicated	$0.0164	≈4s	no
`gemini-3.5-flash`	multimodal	$0.0178	≈5s	chunks

편차는 약 30배에 달한다. 분당 $0.0006 인 gemini-2.5-flash-lite 부터 분당 $0.0178 인 gemini-3.5-flash 까지다. 품질이 아니라 가격만 놓고 봤을 때 눈여겨볼 점이 두 가지 있다. 가장 저렴한 모델은 Gemini flash-lite 로, 가장 싼 전용 ASR 보다 세 배 더 싸다. 그리고 Gemini 계열 안에서는 이 테스트의 정확도와 가격 사이에 아무런 상관관계가 없었다. 그러니 더 크고 비싼 모델이 자동으로 안전한 선택이 되는 건 아니다. 오히려 비싼 큰 모델에 돈을 쓰기 전에, 본인 오디오로 싼 모델부터 벤치마크해봐야 할 이유가 된다.

이 수치가 본인 파일에서 어떻게 달라질지는 과금 방식에 달려 있다. 분당 과금 모델(whisper-1, seed-asr, qwen3-asr-flash, Chirp 계열)은 길이로만 과금하므로 단가를 그대로 적용할 수 있다. 오디오 10분은 포맷이나 내용과 무관하게 분당 단가의 10배다.

토큰당 과금 모델(gpt-4o 와 Gemini 행)은 input 비용이 파일 크기가 아니라 길이에 비례한다. 프로바이더가 토큰화 전에 오디오를 리샘플링하기 때문이다. 같은 말을 담은 320 kbps 짜리 무거운 MP3 와 가벼운 16 kHz WAV 는 토큰화 비용이 거의 같다. 따라서 파일을 압축하면 스토리지는 아껴도 전사 비용은 줄지 않는다. 토큰당 과금에서 비용을 움직이는 건 실제로 말한 양이다. 우리 클립은 무음 구간 없이 보통 속도로 말하므로, 이보다 더 빽빽하거나 조용한 오디오는 output 토큰에서 비용이 조금 더 들거나 덜 든다. 어느 경우든 x-total-cost-usd 헤더가 정답이다.

정확도와 언어 커버리지

영어, 스페인어, 프랑스어에서는 해당 언어를 받는 모델 모두 오류율이 약 0% 였다. 이게 바닥선이고, 모두가 통과한다. 만다린과 힌디어에 가면 이 쉬운 테스트에서도 균열이 보이기 시작하는데, 어느 모델이 낫다는 판정이라기보다 자체 테스트를 어디에 집중해야 할지에 대한 힌트로 받아들이면 된다：

모델	만다린 (CER)	힌디어 (WER)	커버리지
`gemini-2.5-flash-lite`	0%	13%	5개 모두
`gemini-3.1-flash-lite-preview`	0%	15%	5개 모두
`seed-asr-bigmodel`	0%	실패	영어 + 중국어만
`qwen3-asr-flash`	0%	15%	5개 모두
`gemini-2.5-flash`	0%	15%	5개 모두
`gpt-4o-mini-transcribe`	0%	4%	5개 모두
`gemini-3-flash-preview`	16%	7%	5개 모두
`whisper-1`	0%	22%	5개 모두
`gpt-4o-transcribe`	0%	13%	5개 모두
`gemini-2.5-pro`	0%	15%	5개 모두
`chirp-2`	16%	15%	5개 모두
`chirp-3`	2%	15%	5개 모두
`gemini-3.5-flash`	0%	15%	5개 모두

여기서 핵심은 정확도가 아니라 커버리지다. seed-asr 는 힌디어, 스페인어, 프랑스어에서 쓸모없는 결과를 내놓는다. 영어와 중국어 전용 모델이라, 오디오가 이 둘 중 하나일 때만 선택지가 된다. 나머지는 모두 5개 언어를 처리했다.

힌디어 점수 편차와 만다린에서의 미끄러짐(chirp-2, Gemini 하나)은 어느 모델이 더 낫다는 뜻이 아니라, 까다로운 언어에서는 믿기 전에 직접 테스트해 볼 가치가 있다는 신호다. 절대 수치는 합성 음성과 채점 방식 때문에 부풀려져 있고, 실행마다 달라진다. 솔직하게 말하면 주요 언어의 깨끗한 음성에서는 정확도로 이 모델들이 갈리지 않으며, 따라서 이 테스트로 선택을 가를 수 있는 지점도 아니다.

스트리밍 출력

모델이 트랜스크립트를 스트리밍할 수 있느냐는 품질이 아니라 기능의 문제이고, 이 기준으로 라인업이 갈린다. 분당 과금 모델(whisper-1, seed-asr, qwen3-asr-flash, 그리고 두 Chirp)은 배치 전용이라, 스트리밍을 요청하면 게이트웨이가 400을 반환한다. gpt-4o 계열은 token 단위로 스트리밍한다. gpt-4o-transcribe 는 약 1초 만에 첫 단어를 반환하고 나머지를 채워 넣는데, 실시간 느낌의 UI에 필요한 동작이 바로 이거다. Gemini 모델은 기술적으로는 스트리밍을 하지만 큰 블록 3~6개로 나눠 보내고, 첫 블록이 도착하는 시점이 전체 트랜스크립트가 끝날 무렵이라 사실상 얻는 게 거의 없다. 비용은 배치와 동일하다. 스트리밍하려면 stream=true 를 추가한다：

curl -N https://synthorai.io/v1/audio/transcriptions \
  -H "Authorization: Bearer $SYNTHORAI_API_KEY" \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe -F stream=true
# data: {"type":"transcript.text.delta","delta":"When"}
# data: {"type":"transcript.text.delta","delta":" you"} ...

반복 오디오 캐싱

캐싱에서 두 과금 방식이 한 번 더 갈린다. 분당 과금 모델은 캐싱이 안 된다. 같은 클립을 whisper-1 에 다섯 번 보냈더니 매번 똑같이 $0.015478 을 냈는데, 청구가 그냥 길이 기준이기 때문이다. token 과금인 Gemini 모델은 캐싱이 된다. 같은 파일을 반복해서 보내면 Gemini의 implicit cache가 오디오 token을 재사용한다. 155초짜리 클립을 다섯 번 보낸 경우 gemini-2.5-flash 는 반복 중 두 번에서 $0.0054 에서 $0.0026 으로 약 51% 떨어졌고, gemini-2.5-pro 는 약 39% 떨어졌다.

다만 두 가지 단서가 이걸 확실한 것으로 만들지 못한다. best-effort 방식이라 어떤 반복은 캐시에 맞고 어떤 반복은 정가를 낸다. 그리고 오디오가 Gemini의 token 하한선, 대략 1분 이상을 넘어야 하는데, 이 테스트의 다른 짧은 클립들은 그 선을 넘지 못한다. gpt-4o 모델은 캐시 요율을 명시하지 않으며, 실행 간 일반적인 변동만 보였다. 따라서 워크로드가 같은 파일을 다시 트랜스크립션한다면, 캐싱은 token 과금 모델에서는 실질적인 할인이지만 분당 과금 모델에서는 아무 의미가 없다.

먼저 확인할 것, 그리고 직접 테스트해야 할 것

이 테스트로는 당신의 녹음 파일에서 어떤 모델이 가장 정확한지 알 수 없다. 다만 직접 평가를 돌리기 전에 무엇으로 걸러내야 할지는 알려준다.

언어. 필요한 언어를 모두 지원하는지 확인하라. seed-asr 은 영어와 중국어만 지원한다. 나머지 12 개는 우리가 시도한 5 개 언어를 모두 처리했다. 이건 취향 문제가 아니라 통과 못 하면 끝인 조건이다.
스트리밍. 실시간 자막이 필요하다면 token 단위로 스트리밍하는 건 gpt-4o 계열뿐이다. 분당 과금 모델은 배치 전용이고, Gemini 의 스트리밍은 단위가 거칠다.
비용. 편차가 약 30 배다. gemini-2.5-flash-lite 가 가장 저렴하면서도 다국어를 지원한다. Chirp 계열과 가장 큰 Gemini 가 가장 비싸다. 같은 계열의 더 큰 모델은 쉬운 클립에서는 비싼 값을 못 했으니, 확인도 안 하고 큰 모델이 필요하다고 단정하지 마라. 같은 파일을 자주 다시 전사한다면, token 과금 방식의 Gemini 모델은 위에서처럼 오디오를 캐싱할 수도 있다.

몇몇 모델이 이 조건들을 통과하고 나면, 남는 질문은 하나다. 억양과 잡음, 어휘가 섞인 당신의 오디오에서 각 모델이 얼마나 정확한가. 이건 당신이 직접 답해야 한다. 깨끗한 음성으로 측정한 벤치마크로는, 통과한 모델들을 실제 녹음에 돌려보는 일을 대신할 수 없다.

결론

주요 언어로 또박또박 읽은 깨끗한 음성에서는 13 개 모델 모두 정확도가 엇비슷하다. 이 테스트가 주는 가장 쓸모 있는 결론이 바로 이것이다. 정확도는 선택 기준이 아니다. 대신 이 테스트가 확실히 짚어주는, 실제로 차이가 나는 부분은 기본 조건이다. 비용은 약 30 배 차이가 나고, 한 모델은 언어를 둘만 지원하며, 여러 모델은 스트리밍을 못 한다. 이걸로 후보를 좁혀라. 우승자를 가리는 데 쓰지 말고. 그런 다음 살아남은 두세 개를 당신의 오디오로 돌려봐라. 그 마지막 단계는 어떤 간단한 테스트도 대신 해줄 수 없다.

출처

비용과 지연 시간은 2026-06-25 에 Synthorai 에서 13 개 모델과 5 개 언어(영어, 표준 중국어, 힌디어, 스페인어, 프랑스어)를 대상으로 x-total-cost-usd 헤더와 SSE 타이밍을 통해 측정했다. 오디오는 text-to-speech 로 생성한, 일부러 쉽게 만든 음성이다. 따라서 정확도 수치는 품질 벤치마크가 아니라 하한선 점검에 가깝다. 억양과 잡음이 있는 실제 음성이라면 이 모델들이 다르게 갈렸을 것이다. 지연 시간은 실행할 때마다 다르다. 표시된 가격은 해당 날짜 기준 이 플랫폼의 요율이다. 의존하기 전에 현재 가격을 확인하라.

← 블로그로 돌아가기