语音转文字如何工作：从音频波形到对数梅尔频谱图

Speech To Text（语音转文字）技术已广泛用于会议转写、视频字幕、语音输入和智能助手。但没有耳朵的计算机，究竟是如何“听懂”人说话的呢？

要回答这个问题，我们需要从最熟悉的音频表示——音频波形——出发，一步步走向现代 ASR（自动语音识别）系统的核心特征：对数梅尔频谱图（Log-Mel Spectrogram）。

音频波形：最直观的声音呈现

在录音或剪辑软件里，声音通常以音频波形显示。

音频波形表示：

波形能帮助人们直观地看出：

然而，对 Speech To Text 而言，波形主要描述声音有多响，并不能充分说明“这是什么样的声音”。

语音中真正的语言信息，更多体现在频率内容，而不仅是振幅。

不同的音素、音色和说话方式，取决于频率如何组合并随时间演变。在波形里，这些细节藏在复杂的振荡之中，机器难以直接解读。

因此，Speech To Text 会把时间域的音频转换到频率域。

为了更有效地分析语音，ASR 会生成频谱图（spectrogram），其中：

频谱图展示频率成分如何随时间变化，更容易识别语音模式。不过，原始频谱图仍与人类感知声音的方式并不完全一致。

这就是对数梅尔频谱图发挥作用的地方。

它在普通频谱图基础上做了改进：

最终得到一张二维的“声音图像”，能清晰呈现：

包括 Whisper 在内的现代 Speech To Text 模型，通常以对数梅尔频谱图作为主要输入。

对数梅尔频谱图具有多项优势：

它是从“检测到声音”迈向“真正理解语音”的关键一步。

Speech To Text 不只是处理音频，更是在理解语音结构。音频波形让我们“看见”声音，而对数梅尔频谱图让机器去解释声音。

从波形到频谱图，再到对数梅尔频谱图，这一转换链路，正是当今高精度、高可靠度 Speech To Text 系统的基础。