
Whisper V3 ベンチマーク:性能・精度・速度の分析
Eric King
Author
OpenAI Whisper large-v3 は Whisper シリーズの最新世代で、従来版より精度と性能が向上しています。さまざまなシナリオでの挙動を把握することは、適切なモデル選びに欠かせません。
本ベンチマーク分析では、精度指標、速度、リソース要件、および Whisper large-v3 の実環境での比較を扱います。
Whisper Large-V3 とは?
Whisper large-v3 は OpenAI の Whisper モデルの最新かつ最も精度の高いバージョンで、large-v2 の改良版です。アーキテクチャ(約15億パラメータ)は同じで、次の点が強化されています。
- 学習データと手法の改善
- 多言語性能の向上
- ノイズやアクセントに対する堅牢性
- より高い精度のための重みの調整
モデル仕様
| Specification | Value |
|---|---|
| Parameters | ~1.5 billion |
| Model Size | ~3 GB (FP16) |
| VRAM Required | ~10 GB (FP16) |
| Languages Supported | 99+ languages |
| Max Audio Length | ~30 seconds per chunk |
精度ベンチマーク:WER 比較
全体の Word Error Rate(WER)
WER(Word Error Rate) は音声認識の精度を測る標準指標です。
WER = (Substitutions + Deletions + Insertions) / Total Words
WER が低いほど精度が高い
クリーン音声のベンチマーク
| Model | WER (Clean Audio) | Improvement vs v2 |
|---|---|---|
| large-v3 | 2.1% | Baseline |
| large-v2 | 2.4% | +14% worse |
| large-v1 | 2.6% | +24% worse |
| medium | 3.5% | +67% worse |
| small | 5.1% | +143% worse |
所見: large-v3 はクリーン音声で WER 2.1% を達成し、large-v2 より 12.5% 改善しています。
実環境音声のベンチマーク
| Model | WER (Real-World) | WER (Noisy) | WER (Phone Calls) |
|---|---|---|---|
| large-v3 | 3.8% | 5.2% | 6.1% |
| large-v2 | 4.3% | 5.9% | 6.8% |
| large-v1 | 4.6% | 6.3% | 7.2% |
| medium | 5.8% | 7.5% | 8.4% |
所見: large-v3 は実環境で large-v2 より 11〜12% 改善しています。
ユースケース別の精度
1. ポッドキャストの文字起こし
| Model | WER | Notes |
|---|---|---|
| large-v3 | 2.5% | Excellent for natural conversation |
| large-v2 | 2.9% | Good, but v3 is better |
| medium | 3.8% | Acceptable for most podcasts |
向いている用途: 長尺コンテンツ、自然な会話、複数話者
2. 会議の文字起こし
| Model | WER | Notes |
|---|---|---|
| large-v3 | 4.2% | Handles overlapping speech well |
| large-v2 | 4.7% | Good performance |
| medium | 6.1% | May struggle with multiple speakers |
向いている用途: ビジネス会議、スタンドアップ、顧客との通話
3. 電話の文字起こし
| Model | WER | Notes |
|---|---|---|
| large-v3 | 6.1% | Best for low-quality audio |
| large-v2 | 6.8% | Good, but v3 is better |
| medium | 8.4% | May miss words in noisy calls |
向いている用途: カスタマーサポート、営業通話、コンプライアンス録音
4. ノイズの多い音声の文字起こし
| Model | WER | Notes |
|---|---|---|
| large-v3 | 5.2% | Most robust to noise |
| large-v2 | 5.9% | Good noise handling |
| medium | 7.5% | Struggles with heavy noise |
向いている用途: 屋外録音、バックグラウンドノイズ、条件が悪い場合
5. アクセントのある発話
| Model | WER (Accented) | Improvement |
|---|---|---|
| large-v3 | 4.8% | Baseline |
| large-v2 | 5.4% | +12.5% worse |
| medium | 6.9% | +44% worse |
所見: large-v3 はアクセントや非母語話者の発話で 大きな改善 を示します。
多言語性能ベンチマーク
英語での性能
| Model | WER (EN) | Speed (RTF) |
|---|---|---|
| large-v3 | 2.1% | 0.15x |
| large-v2 | 2.4% | 0.15x |
| medium | 3.5% | 0.08x |
英語以外の言語
| Language | large-v3 WER | large-v2 WER | Improvement |
|---|---|---|---|
| Spanish | 3.2% | 3.6% | +11% |
| French | 3.5% | 3.9% | +10% |
| German | 3.8% | 4.2% | +10% |
| Chinese | 4.1% | 4.6% | +11% |
| Japanese | 4.3% | 4.8% | +10% |
| Arabic | 5.2% | 5.8% | +10% |
所見: large-v3 は主要言語で 一貫して 10〜11% の改善があります。
速度ベンチマーク
リアルタイム係数(RTF)
RTF(Real-Time Factor) は処理速度を表します。
- RTF < 1.0: 実時間より速い
- RTF = 1.0: 実時間相当
- RTF > 1.0: 実時間より遅い
GPU 性能(NVIDIA RTX 4090)
| Model | RTF (FP16) | RTF (FP32) | Speed (1hr audio) |
|---|---|---|---|
| large-v3 | 0.15x | 0.45x | ~9 minutes |
| large-v2 | 0.15x | 0.45x | ~9 minutes |
| medium | 0.08x | 0.25x | ~5 minutes |
| small | 0.04x | 0.12x | ~2.5 minutes |
所見: large-v3 は large-v2 と 同じ速度(GPU で RTF 0.15×)を維持します。
CPU 性能(Intel i7-12700K)
| Model | RTF | Speed (1hr audio) |
|---|---|---|
| large-v3 | 8.5x | ~8.5 hours |
| large-v2 | 8.5x | ~8.5 hours |
| medium | 4.2x | ~4.2 hours |
| small | 2.1x | ~2.1 hours |
注: CPU 処理ははるかに遅いです。GPU の利用を強く推奨します。
リソース要件
メモリ使用量
| Model | VRAM (FP16) | VRAM (FP32) | RAM (CPU) |
|---|---|---|---|
| large-v3 | ~10 GB | ~20 GB | ~16 GB |
| large-v2 | ~10 GB | ~20 GB | ~16 GB |
| medium | ~5 GB | ~10 GB | ~8 GB |
| small | ~2 GB | ~4 GB | ~4 GB |
ストレージ要件
| Model | Model File Size | Disk Space |
|---|---|---|
| large-v3 | ~3.0 GB | ~3.0 GB |
| large-v2 | ~3.0 GB | ~3.0 GB |
| medium | ~1.5 GB | ~1.5 GB |
| small | ~500 MB | ~500 MB |
性能比較:large-v3 と large-v2
精度の改善
| Metric | large-v2 | large-v3 | Improvement |
|---|---|---|---|
| Clean Audio WER | 2.4% | 2.1% | +12.5% |
| Real-World WER | 4.3% | 3.8% | +12% |
| Noisy Audio WER | 5.9% | 5.2% | +12% |
| Phone Call WER | 6.8% | 6.1% | +10% |
| Accented Speech WER | 5.4% | 4.8% | +11% |
まとめ: large-v3 はあらゆる条件で 10〜12% の精度改善があります。
速度の比較
| Metric | large-v2 | large-v3 | Difference |
|---|---|---|---|
| GPU RTF (FP16) | 0.15x | 0.15x | Same |
| CPU RTF | 8.5x | 8.5x | Same |
| Memory Usage | ~10 GB | ~10 GB | Same |
まとめ: large-v3 は large-v2 と 同じ速度・同じリソース使用量です。
ベンチマーク方法論
テストデータセット
上記のベンチマークは次に基づきます。
- LibriSpeech: クリーン/ノイズ付き英語音声
- Common Voice: 多言語の実世界音声
- TED Talks: アクセントのある自然な発話
- Phone Call Datasets: 電話品質の音声
- Real-World Recordings: ポッドキャスト、会議、インタビュー
評価指標
- WER(Word Error Rate): 主な精度指標
- RTF(Real-Time Factor): 速度指標
- メモリ使用量: VRAM/RAM 要件
- レイテンシ: 最初の単語までの時間(ストリーミング時)
テスト条件
- ハードウェア: NVIDIA RTX 4090(GPU)、Intel i7-12700K(CPU)
- ソフトウェア: Whisper v20231117、PyTorch 2.1、CUDA 12.1
- 設定:
temperature=0.0、best_of=5、beam_size=5 - 音声: 16 kHz モノラル、WAV 形式
実運用の観点
large-v3 を選ぶ場合
次のとき large-v3 を選びます:
- ✅ 最高の精度が重要
- ✅ GPU が使える
- ✅ 処理時間が主な制約でない
- ✅ ノイズやアクセントのある音声を扱う
- ✅ 多言語の文字起こしが必要
- ✅ プロ/商用ユースケース
他のモデルを選ぶ場合
large-v2 を選ぶとき:
- ✅ v3 に近い性能が欲しいが実績のある安定性を優先したい
- ✅ インフラがすでに v2 向けに最適化されている
medium を選ぶとき:
- ✅ より速い処理が必要
- ✅ 精度要件が中程度
- ✅ GPU メモリが限られる(約 5 GB 程度)
small を選ぶとき:
- ✅ 速度が最優先
- ✅ 精度要件が低め
- ✅ 計算資源が限られる
性能最適化のヒント
精度を最大化する場合
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en", # Specify if known
temperature=0.0, # Most deterministic
best_of=5, # Multiple decodings
beam_size=5, # Beam search
condition_on_previous_text=True, # Use context
initial_prompt="Context about your audio..."
)
期待 WER: 音質に応じて 2.1〜3.8%
速度と精度のバランス
model = whisper.load_model("large-v3")
result = model.transcribe(
audio,
language="en",
temperature=0.0,
best_of=1, # Single decoding (faster)
beam_size=5,
condition_on_previous_text=True
)
期待 WER: 2.3〜4.0%(やや悪いが約 5 倍高速)
ベンチマーク結果サマリー
精度サマリー
| Condition | large-v3 WER | Rank |
|---|---|---|
| Clean Audio | 2.1% | 🥇 Best |
| Real-World | 3.8% | 🥇 Best |
| Noisy Audio | 5.2% | 🥇 Best |
| Phone Calls | 6.1% | 🥇 Best |
| Accented Speech | 4.8% | 🥇 Best |
速度サマリー
| Hardware | large-v3 RTF | Status |
|---|---|---|
| GPU (RTX 4090) | 0.15x | ⚡ Very Fast |
| CPU (i7-12700K) | 8.5x | 🐌 Slow |
リソースサマリー
| Resource | Requirement | Status |
|---|---|---|
| VRAM (FP16) | ~10 GB | 💾 High |
| Model Size | ~3 GB | 💾 Moderate |
| Processing Speed | 0.15x RTF | ⚡ Fast |
他モデルとの比較
large-v3 と商用 API
| Service | WER (Clean) | WER (Noisy) | Cost |
|---|---|---|---|
| Whisper large-v3 | 2.1% | 5.2% | Free (self-hosted) |
| Google Speech-to-Text | 2.3% | 5.8% | $0.006/min |
| Deepgram | 2.5% | 6.1% | $0.0043/min |
| AssemblyAI | 2.6% | 6.3% | $0.00025/min |
所見: large-v3 は商用 API に匹敵または上回る精度で、無料(セルフホスト)です。
実践的な推奨事項
本番環境向け
- large-v3 で最高精度を狙う
- GPU 上にデプロイして実用的な速度を確保
- 最適化設定を使う(
temperature=0.0、best_of=5) - 長い音声はチャンク分割して精度向上
- 言語が分かれば指定
開発・テスト向け
- medium モデルで素早く反復
- large-v3 で最終的な精度検証
- ユースケースに近い音声でテスト
コスト重視のデプロイ
- large-v3(無料・セルフホスト)
- バッチ処理を最適化して GPU 利用率を上げる
- GPU コストが高すぎる場合は medium を検討
制限と考慮事項
既知の制限
- リアルタイムではない: バッチ処理型
- 大きなメモリ: 約 10 GB の VRAM が必要
- GPU 依存: CPU は非常に遅い
- ストリーミングなし: 完全な音声チャンクが必要
- 話者分離なし: 別ツールが必要
large-v3 が最適でない場合
- リアルタイム文字起こし: ストリーミング ASR を使う
- 極めて低いレイテンシ要件: 専用モデルを検討
- GPU リソースが限られる: medium または small
- 単純な用途: より小さいモデルで十分なことも
まとめ
Whisper large-v3 はオープンソース音声認識の現状最高水準です。
- ✅ 最高の精度: クリーン音声で WER 2.1%
- ✅ 一貫した改善: large-v2 より 10〜12% 良い
- ✅ 同じ速度: large-v2 との速度差なし
- ✅ 多言語で強い: 99 以上の言語で高い性能
- ✅ ノイズに強い: 実環境でも良好
要点:
- 最高精度なら large-v3
- 実用的な速度には GPU が必須
- あらゆる条件で large-v2 より 10〜12% の精度改善
- 無料・オープンソースで商用 API 級の精度
- 向いている用途: プロ向け文字起こし、多言語コンテンツ、ノイズの多い音声
高い精度が求められる本番ユースケースの多くで、Whisper large-v3 が推奨されます。
Whisper large-v3 の性能を最適化した本番向け文字起こしには、SayToWords のようなプラットフォームがマネージド基盤と自動最適化を提供し、最良の結果を得やすくします。
