通話文字起こし向け Whisper:電話向けの高精度音声テキスト変換

通話文字起こし向け Whisper:電話向けの高精度音声テキスト変換

Eric King

Eric King

Author


電話の文字起こしは、音声認識のなかでも最も一般的で価値の高い用途のひとつです。OpenAI Whisper は、ノイズやアクセント、不完全な音質に強いため、このシナリオに特に適しています。
本稿では 通話の文字起こしに Whisper を使う方法として、オーディオ形式、話者の分離、精度の最適化、実運用でのデプロイパターンを説明します。

通話文字起こしに Whisper を選ぶ理由

従来の ASR と比べ、Whisper は次の点で良好な性能を発揮します。
  • 品質の低い電話音声(8 kHz)
  • アクセントや非母語話者
  • 背景ノイズ
  • 長い会話(10〜120 分)
  • 多言語の通話やコードスイッチング
代表的な用途:
  • カスタマーサポートの通話ログ
  • 営業電話の分析
  • QA とコンプライアンス
  • 通話の要約とインサイト
  • CRM の自動化

典型的な通話文字起こしパイプライン

Call (PSTN / VoIP)
↓
Call Recording (WAV / MP3)
↓
Preprocessing (resample, channel split)
↓
Whisper Transcription
↓
Speaker Diarization (optional)
↓
Post-processing (punctuation, timestamps, summaries)

オーディオ形式:何が最適か

推奨設定

パラメータ
サンプルレート8 kHz または 16 kHz
チャンネルモノラルまたはステレオ
形式WAV(推奨)、FLAC
ビット深度16 ビット PCM
Whisper は内部でリサンプルしますが、きれいな入力ほど精度が上がります

モノラル通話とステレオ通話

モノラル(最も一般的)

  • 両者の音声が 1 チャンネルにミックス
  • パイプラインは単純
  • 話者分離は難しい
向いている用途:
  • シンプルな文字起こし
  • 検索とアーカイブ

ステレオ(ベストプラクティス)

  • 左チャンネル:オペレーター
  • 右チャンネル:顧客
利点:
  • 話者の分離が明確
  • ダイアライゼーションが不要
  • 下流処理の精度が高い
# Split stereo call into two mono tracks
import torchaudio

audio, sr = torchaudio.load("call.wav")
agent = audio[0]
customer = audio[1]
その後、各チャンネルを個別に転写します。

Whisper と話者ダイアライゼーション

Whisper にダイアライゼーションは組み込まれていませんが、次と組み合わせられます。
  • Pyannote.audio
  • WebRTC VAD + クラスタリング
  • チャンネルベースの分離(推奨)
一般的な手順:
  1. ダイアライゼーションモデルを実行する
  2. 話者セグメントごとに音声を分割する
  3. 各セグメントを Whisper で転写する
  4. 話者ラベル付きで結果をマージする

通話向けの Whisper モデル選び

モデル精度速度推奨
base速い❌ 短い通話
small✅ ほとんどのケース
medium非常に高いやや遅い✅ コンプライアンス
large-v3極めて高い遅い✅ 法務 / QA
推奨: コールセンターでは small または medium

長い通話(30〜120 分)

長い通話では、音声全体を一度に渡さないようにします。

ベストプラクティス

  • 2〜5 分程度のチャンクに分割する
  • 5〜10 秒の小さなオーバーラップを使う
  • タイムスタンプを保持する
result = model.transcribe(
  audio_chunk,
  condition_on_previous_text=True
)
チャンク間の文脈が保たれます。

電話音声の精度を上げる

1. オーディオを正規化する

  • 無音を除去する
  • 音量を正規化する
  • 必要ならノイズ低減をかける

2. 言語ヒントを使う

model.transcribe(audio, language="en")

3. GPU で FP16 を有効にする

推論が速く、安定しやすくなります。

4. 過度に細かいチャンクを避ける

短すぎるチャンクは文脈と精度を下げます。

リアルタイムとバッチの通話転写

モード用途
リアルタイムライブ監視、アラート
準リアルタイムQA ダッシュボード
バッチ分析、アーカイブ
多くのコールセンターは、安定性とコストの観点から準リアルタイムかバッチを使います。

コールセンターでの Whisper のスケール

小規模(1 日あたり 100 件以下)

  • GPU サーバー 1 台
  • Whisper small

中規模(1 日 1k〜10k 件)

  • GPU プール
  • 非同期ジョブキュー(RabbitMQ / Kafka)
  • チャンクベースの処理

大規模(エンタープライズ)

  • 複数 GPU ノード
  • オーディオ前処理サービス
  • 転写と要約のパイプライン

後処理と価値の抽出

転写のあとによく行う処理:
  • 文の句読点
  • 話者タグ
  • キーワード抽出
  • 感情分析
  • 通話要約(LLM)
  • CRM 連携

Whisper とクラウドの通話転写 API

項目Whisperクラウド API
コスト低い(自前ホスト)高い
データのプライバシー完全にコントロールベンダー依存
精度非常に高い高い
カスタマイズ可能限定的
プライバシー、コスト管理、カスタマイズが必要なチームに Whisper は適しています。

まとめ

Whisper は通話の文字起こしに強い選択肢です。特に次の用途に向いています。
  • カスタマーサポート
  • 営業と QA
  • コンプライアンス要件の厳しい業界
適切なオーディオ処理、チャンク分割、必要に応じたダイアライゼーションがあれば、Whisper は本番品質の通話転写を大規模に提供できます。

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website