
音声認識のしくみ:音声波形からログメルスペクトログラムまで
Eric King
Author
Speech To Text(音声テキスト変換)は、会議の文字起こし、動画の字幕、音声入力、スマートアシスタントなどで広く使われています。しかし、耳を持たないコンピューターは、どうやって人の話し言葉を理解しているのでしょうか。
この問いに答えるには、最も身近な音声表現である音声波形から出発し、現代のASR(自動音声認識)の中核となる特徴であるログメルスペクトログラムへと、段階的にたどっていく必要があります。
音声波形:いちばんなじみのある音の表し方
録音や編集ツールでは、音は多くの場合、音声波形として表示されます。
音声波形では次のように表されます。
- 横軸:時間
- 縦軸:振幅(大きさ/音量)
波形は、利用者が視覚的に次のようなことを把握するのに役立ちます。
- 発話がいつ起きているか
- 無音や休止の区間
- 音量の変化
一方で、Speech To Text の観点では、波形は「どれだけ大きい音か」は示しても、「どんな音か」そのものは十分には表しません。
なぜ波形だけでは Speech To Text に足りないのか
話し言葉に含まれる本当の言語情報は、振幅だけでなく、その周波数の内容にあります。
異なる音素や声質、話し方は、周波数がどのように組み合わさり、時間とともにどう変化するかによって決まります。波形の中では、これらの詳細は複雑な振動の中に隠れており、機械が直接解釈するのは難しいのです。
そのため、Speech To Text では、時間領域の音声を周波数領域に変換します。
波形からスペクトログラムへ:周波数の可視化
音声をより効果的に分析するために、ASR ではスペクトログラムを生成します。これは次のように表されます。
- 横軸:時間
- 縦軸:周波数
- 色の濃さ:エネルギー
スペクトログラムは、周波数成分が時間とともにどう変わるかを示し、音声パターンを識別しやすくします。ただし、生のスペクトログラムだけでは、人間の聴覚との対応はまだ十分ではありません。
ログメルスペクトログラム:Speech To Text の中核特徴
そこで登場するのがログメルスペクトログラムです。
通常のスペクトログラムを次のように改良します。
- 周波数を人間の聴覚に近いメル尺度に写像する
- 対数圧縮をかけ、音量差への感度を抑える
その結果、次のような情報がはっきりした二次元の「音の画像」として得られます。
- 音韻的な構造
- 声の特性
- 時間方向の話し方のパターン
Whisper を含む現代の Speech To Text モデルは、主な入力としてログメルスペクトログラムを用いています。
なぜログメルスペクトログラムが Speech To Text に不可欠か
ログメルスペクトログラムには、次のような利点があります。
- 人間の聴覚により近い表現になる
- 音素の区別がしやすくなる
- ノイズや音量変化に対してより頑健である
- 深層学習モデルとの相性がよい
単に「音があるか」を検出する段階から、話し言葉を理解する段階へ進むうえでの重要な橋渡しになります。
まとめ
Speech To Text は、単に音声を処理するだけではなく、話し言葉の構造を理解する技術です。音声波形は音を「見る」ための表現ですが、ログメルスペクトログラムは機械がそれを解釈するための表現です。
波形からスペクトログラム、そしてログメルスペクトログラムへの変換は、今日の高精度で信頼性の高い Speech To Text の根幹をなしています。
