音声認識のしくみ：音声波形からログメルスペクトログラムまで

Speech To Text（音声テキスト変換）は、会議の文字起こし、動画の字幕、音声入力、スマートアシスタントなどで広く使われています。しかし、耳を持たないコンピューターは、どうやって人の話し言葉を理解しているのでしょうか。

この問いに答えるには、最も身近な音声表現である音声波形から出発し、現代のASR（自動音声認識）の中核となる特徴であるログメルスペクトログラムへと、段階的にたどっていく必要があります。

音声波形：いちばんなじみのある音の表し方

録音や編集ツールでは、音は多くの場合、音声波形として表示されます。

音声波形では次のように表されます。

波形は、利用者が視覚的に次のようなことを把握するのに役立ちます。

一方で、Speech To Text の観点では、波形は「どれだけ大きい音か」は示しても、「どんな音か」そのものは十分には表しません。

話し言葉に含まれる本当の言語情報は、振幅だけでなく、その周波数の内容にあります。

異なる音素や声質、話し方は、周波数がどのように組み合わさり、時間とともにどう変化するかによって決まります。波形の中では、これらの詳細は複雑な振動の中に隠れており、機械が直接解釈するのは難しいのです。

そのため、Speech To Text では、時間領域の音声を周波数領域に変換します。

音声をより効果的に分析するために、ASR ではスペクトログラムを生成します。これは次のように表されます。

スペクトログラムは、周波数成分が時間とともにどう変わるかを示し、音声パターンを識別しやすくします。ただし、生のスペクトログラムだけでは、人間の聴覚との対応はまだ十分ではありません。

そこで登場するのがログメルスペクトログラムです。

通常のスペクトログラムを次のように改良します。

その結果、次のような情報がはっきりした二次元の「音の画像」として得られます。

Whisper を含む現代の Speech To Text モデルは、主な入力としてログメルスペクトログラムを用いています。

ログメルスペクトログラムには、次のような利点があります。

単に「音があるか」を検出する段階から、話し言葉を理解する段階へ進むうえでの重要な橋渡しになります。

Speech To Text は、単に音声を処理するだけではなく、話し言葉の構造を理解する技術です。音声波形は音を「見る」ための表現ですが、ログメルスペクトログラムは機械がそれを解釈するための表現です。

波形からスペクトログラム、そしてログメルスペクトログラムへの変換は、今日の高精度で信頼性の高い Speech To Text の根幹をなしています。