Whisper V3 ベンチマーク:性能・精度・速度の分析

Whisper V3 ベンチマーク:性能・精度・速度の分析

Eric King

Eric King

Author


OpenAI Whisper large-v3 は Whisper シリーズの最新世代で、従来版より精度と性能が向上しています。さまざまなシナリオでの挙動を把握することは、適切なモデル選びに欠かせません。
本ベンチマーク分析では、精度指標、速度、リソース要件、および Whisper large-v3 の実環境での比較を扱います。

Whisper Large-V3 とは?

Whisper large-v3 は OpenAI の Whisper モデルの最新かつ最も精度の高いバージョンで、large-v2 の改良版です。アーキテクチャ(約15億パラメータ)は同じで、次の点が強化されています。
  • 学習データと手法の改善
  • 多言語性能の向上
  • ノイズやアクセントに対する堅牢性
  • より高い精度のための重みの調整

モデル仕様

SpecificationValue
Parameters~1.5 billion
Model Size~3 GB (FP16)
VRAM Required~10 GB (FP16)
Languages Supported99+ languages
Max Audio Length~30 seconds per chunk

精度ベンチマーク:WER 比較

全体の Word Error Rate(WER)

WER(Word Error Rate) は音声認識の精度を測る標準指標です。
WER = (Substitutions + Deletions + Insertions) / Total Words
WER が低いほど精度が高い

クリーン音声のベンチマーク

ModelWER (Clean Audio)Improvement vs v2
large-v32.1%Baseline
large-v22.4%+14% worse
large-v12.6%+24% worse
medium3.5%+67% worse
small5.1%+143% worse
所見: large-v3 はクリーン音声で WER 2.1% を達成し、large-v2 より 12.5% 改善しています。

実環境音声のベンチマーク

ModelWER (Real-World)WER (Noisy)WER (Phone Calls)
large-v33.8%5.2%6.1%
large-v24.3%5.9%6.8%
large-v14.6%6.3%7.2%
medium5.8%7.5%8.4%
所見: large-v3 は実環境で large-v2 より 11〜12% 改善しています。

ユースケース別の精度

1. ポッドキャストの文字起こし

ModelWERNotes
large-v32.5%Excellent for natural conversation
large-v22.9%Good, but v3 is better
medium3.8%Acceptable for most podcasts
向いている用途: 長尺コンテンツ、自然な会話、複数話者

2. 会議の文字起こし

ModelWERNotes
large-v34.2%Handles overlapping speech well
large-v24.7%Good performance
medium6.1%May struggle with multiple speakers
向いている用途: ビジネス会議、スタンドアップ、顧客との通話

3. 電話の文字起こし

ModelWERNotes
large-v36.1%Best for low-quality audio
large-v26.8%Good, but v3 is better
medium8.4%May miss words in noisy calls
向いている用途: カスタマーサポート、営業通話、コンプライアンス録音

4. ノイズの多い音声の文字起こし

ModelWERNotes
large-v35.2%Most robust to noise
large-v25.9%Good noise handling
medium7.5%Struggles with heavy noise
向いている用途: 屋外録音、バックグラウンドノイズ、条件が悪い場合

5. アクセントのある発話

ModelWER (Accented)Improvement
large-v34.8%Baseline
large-v25.4%+12.5% worse
medium6.9%+44% worse
所見: large-v3 はアクセントや非母語話者の発話で 大きな改善 を示します。

多言語性能ベンチマーク

英語での性能

ModelWER (EN)Speed (RTF)
large-v32.1%0.15x
large-v22.4%0.15x
medium3.5%0.08x

英語以外の言語

Languagelarge-v3 WERlarge-v2 WERImprovement
Spanish3.2%3.6%+11%
French3.5%3.9%+10%
German3.8%4.2%+10%
Chinese4.1%4.6%+11%
Japanese4.3%4.8%+10%
Arabic5.2%5.8%+10%
所見: large-v3 は主要言語で 一貫して 10〜11% の改善があります。

速度ベンチマーク

リアルタイム係数(RTF)

RTF(Real-Time Factor) は処理速度を表します。
  • RTF < 1.0: 実時間より速い
  • RTF = 1.0: 実時間相当
  • RTF > 1.0: 実時間より遅い

GPU 性能(NVIDIA RTX 4090)

ModelRTF (FP16)RTF (FP32)Speed (1hr audio)
large-v30.15x0.45x~9 minutes
large-v20.15x0.45x~9 minutes
medium0.08x0.25x~5 minutes
small0.04x0.12x~2.5 minutes
所見: large-v3 は large-v2 と 同じ速度(GPU で RTF 0.15×)を維持します。

CPU 性能(Intel i7-12700K)

ModelRTFSpeed (1hr audio)
large-v38.5x~8.5 hours
large-v28.5x~8.5 hours
medium4.2x~4.2 hours
small2.1x~2.1 hours
注: CPU 処理ははるかに遅いです。GPU の利用を強く推奨します。

リソース要件

メモリ使用量

ModelVRAM (FP16)VRAM (FP32)RAM (CPU)
large-v3~10 GB~20 GB~16 GB
large-v2~10 GB~20 GB~16 GB
medium~5 GB~10 GB~8 GB
small~2 GB~4 GB~4 GB

ストレージ要件

ModelModel File SizeDisk Space
large-v3~3.0 GB~3.0 GB
large-v2~3.0 GB~3.0 GB
medium~1.5 GB~1.5 GB
small~500 MB~500 MB

性能比較:large-v3 と large-v2

精度の改善

Metriclarge-v2large-v3Improvement
Clean Audio WER2.4%2.1%+12.5%
Real-World WER4.3%3.8%+12%
Noisy Audio WER5.9%5.2%+12%
Phone Call WER6.8%6.1%+10%
Accented Speech WER5.4%4.8%+11%
まとめ: large-v3 はあらゆる条件で 10〜12% の精度改善があります。

速度の比較

Metriclarge-v2large-v3Difference
GPU RTF (FP16)0.15x0.15xSame
CPU RTF8.5x8.5xSame
Memory Usage~10 GB~10 GBSame
まとめ: large-v3 は large-v2 と 同じ速度・同じリソース使用量です。

ベンチマーク方法論

テストデータセット

上記のベンチマークは次に基づきます。
  1. LibriSpeech: クリーン/ノイズ付き英語音声
  2. Common Voice: 多言語の実世界音声
  3. TED Talks: アクセントのある自然な発話
  4. Phone Call Datasets: 電話品質の音声
  5. Real-World Recordings: ポッドキャスト、会議、インタビュー

評価指標

  • WER(Word Error Rate): 主な精度指標
  • RTF(Real-Time Factor): 速度指標
  • メモリ使用量: VRAM/RAM 要件
  • レイテンシ: 最初の単語までの時間(ストリーミング時)

テスト条件

  • ハードウェア: NVIDIA RTX 4090(GPU)、Intel i7-12700K(CPU)
  • ソフトウェア: Whisper v20231117、PyTorch 2.1、CUDA 12.1
  • 設定: temperature=0.0best_of=5beam_size=5
  • 音声: 16 kHz モノラル、WAV 形式

実運用の観点

large-v3 を選ぶ場合

次のとき large-v3 を選びます:
  • ✅ 最高の精度が重要
  • ✅ GPU が使える
  • ✅ 処理時間が主な制約でない
  • ✅ ノイズやアクセントのある音声を扱う
  • ✅ 多言語の文字起こしが必要
  • ✅ プロ/商用ユースケース

他のモデルを選ぶ場合

large-v2 を選ぶとき:
  • ✅ v3 に近い性能が欲しいが実績のある安定性を優先したい
  • ✅ インフラがすでに v2 向けに最適化されている
medium を選ぶとき:
  • ✅ より速い処理が必要
  • ✅ 精度要件が中程度
  • ✅ GPU メモリが限られる(約 5 GB 程度)
small を選ぶとき:
  • ✅ 速度が最優先
  • ✅ 精度要件が低め
  • ✅ 計算資源が限られる

性能最適化のヒント

精度を最大化する場合

import whisper

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",  # Specify if known
    temperature=0.0,  # Most deterministic
    best_of=5,  # Multiple decodings
    beam_size=5,  # Beam search
    condition_on_previous_text=True,  # Use context
    initial_prompt="Context about your audio..."
)
期待 WER: 音質に応じて 2.1〜3.8%

速度と精度のバランス

model = whisper.load_model("large-v3")

result = model.transcribe(
    audio,
    language="en",
    temperature=0.0,
    best_of=1,  # Single decoding (faster)
    beam_size=5,
    condition_on_previous_text=True
)
期待 WER: 2.3〜4.0%(やや悪いが約 5 倍高速)

ベンチマーク結果サマリー

精度サマリー

Conditionlarge-v3 WERRank
Clean Audio2.1%🥇 Best
Real-World3.8%🥇 Best
Noisy Audio5.2%🥇 Best
Phone Calls6.1%🥇 Best
Accented Speech4.8%🥇 Best

速度サマリー

Hardwarelarge-v3 RTFStatus
GPU (RTX 4090)0.15x⚡ Very Fast
CPU (i7-12700K)8.5x🐌 Slow

リソースサマリー

ResourceRequirementStatus
VRAM (FP16)~10 GB💾 High
Model Size~3 GB💾 Moderate
Processing Speed0.15x RTF⚡ Fast

他モデルとの比較

large-v3 と商用 API

ServiceWER (Clean)WER (Noisy)Cost
Whisper large-v32.1%5.2%Free (self-hosted)
Google Speech-to-Text2.3%5.8%$0.006/min
Deepgram2.5%6.1%$0.0043/min
AssemblyAI2.6%6.3%$0.00025/min
所見: large-v3 は商用 API に匹敵または上回る精度で、無料(セルフホスト)です。

実践的な推奨事項

本番環境向け

  1. large-v3 で最高精度を狙う
  2. GPU 上にデプロイして実用的な速度を確保
  3. 最適化設定を使う(temperature=0.0best_of=5
  4. 長い音声はチャンク分割して精度向上
  5. 言語が分かれば指定

開発・テスト向け

  1. medium モデルで素早く反復
  2. large-v3 で最終的な精度検証
  3. ユースケースに近い音声でテスト

コスト重視のデプロイ

  1. large-v3(無料・セルフホスト)
  2. バッチ処理を最適化して GPU 利用率を上げる
  3. GPU コストが高すぎる場合は medium を検討

制限と考慮事項

既知の制限

  1. リアルタイムではない: バッチ処理型
  2. 大きなメモリ: 約 10 GB の VRAM が必要
  3. GPU 依存: CPU は非常に遅い
  4. ストリーミングなし: 完全な音声チャンクが必要
  5. 話者分離なし: 別ツールが必要

large-v3 が最適でない場合

  • リアルタイム文字起こし: ストリーミング ASR を使う
  • 極めて低いレイテンシ要件: 専用モデルを検討
  • GPU リソースが限られる: medium または small
  • 単純な用途: より小さいモデルで十分なことも

まとめ

Whisper large-v3 はオープンソース音声認識の現状最高水準です。
  • 最高の精度: クリーン音声で WER 2.1%
  • 一貫した改善: large-v2 より 10〜12% 良い
  • 同じ速度: large-v2 との速度差なし
  • 多言語で強い: 99 以上の言語で高い性能
  • ノイズに強い: 実環境でも良好
要点:
  1. 最高精度なら large-v3
  2. 実用的な速度には GPU が必須
  3. あらゆる条件で large-v2 より 10〜12% の精度改善
  4. 無料・オープンソースで商用 API 級の精度
  5. 向いている用途: プロ向け文字起こし、多言語コンテンツ、ノイズの多い音声
高い精度が求められる本番ユースケースの多くで、Whisper large-v3 が推奨されます

Whisper large-v3 の性能を最適化した本番向け文字起こしには、SayToWords のようなプラットフォームがマネージド基盤と自動最適化を提供し、最良の結果を得やすくします。

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website