
语音转文字如何工作:从音频波形到对数梅尔频谱图
Eric King
Author
Speech To Text(语音转文字)技术已广泛用于会议转写、视频字幕、语音输入和智能助手。但没有耳朵的计算机,究竟是如何“听懂”人说话的呢?
要回答这个问题,我们需要从最熟悉的音频表示——音频波形——出发,一步步走向现代 ASR(自动语音识别)系统的核心特征:对数梅尔频谱图(Log-Mel Spectrogram)。
音频波形:最直观的声音呈现
在录音或剪辑软件里,声音通常以音频波形显示。
音频波形表示:
- 横轴:时间
- 纵轴:振幅(响度)
波形能帮助人们直观地看出:
- 语音何时出现
- 静音或停顿片段
- 音量变化
然而,对 Speech To Text 而言,波形主要描述声音有多响,并不能充分说明“这是什么样的声音”。
为什么仅有波形不足以做语音转文字
语音中真正的语言信息,更多体现在频率内容,而不仅是振幅。
不同的音素、音色和说话方式,取决于频率如何组合并随时间演变。在波形里,这些细节藏在复杂的振荡之中,机器难以直接解读。
因此,Speech To Text 会把时间域的音频转换到频率域。
从波形到频谱图:把频率可视化
为了更有效地分析语音,ASR 会生成频谱图(spectrogram),其中:
- x 轴:时间
- y 轴:频率
- 颜色深浅:能量
频谱图展示频率成分如何随时间变化,更容易识别语音模式。不过,原始频谱图仍与人类感知声音的方式并不完全一致。
对数梅尔频谱图:Speech To Text 的核心特征
这就是对数梅尔频谱图发挥作用的地方。
它在普通频谱图基础上做了改进:
- 将频率映射到更符合人耳感知的梅尔(Mel)尺度
- 使用对数压缩,降低对音量差异的敏感度
最终得到一张二维的“声音图像”,能清晰呈现:
- 语音结构
- 声音特征
- 随时间变化的说话模式
包括 Whisper 在内的现代 Speech To Text 模型,通常以对数梅尔频谱图作为主要输入。
为什么对数梅尔频谱图对语音转文字至关重要
对数梅尔频谱图具有多项优势:
- 更贴近人类听觉
- 音素区分更清晰
- 对噪声和音量变化更稳健
- 更适合深度学习模型
它是从“检测到声音”迈向“真正理解语音”的关键一步。
结语
Speech To Text 不只是处理音频,更是在理解语音结构。音频波形让我们“看见”声音,而对数梅尔频谱图让机器去解释声音。
从波形到频谱图,再到对数梅尔频谱图,这一转换链路,正是当今高精度、高可靠度 Speech To Text 系统的基础。
