
Как работает распознавание речи: от звуковой волны к лог-мел-спектрограмме
Eric King
Author
Технология Speech To Text сегодня широко используется для расшифровки совещаний, субтитров к видео, голосового ввода и интеллектуальных ассистентов. Но как компьютер понимает человеческую речь, если у него нет ушей?
Чтобы ответить на этот вопрос, нужно начать с звуковой волны — самого привычного способа показать звук — и шаг за шагом дойти до ключевого признака современных систем ASR: лог-мел-спектрограммы.
Звуковая волна: самое знакомое представление звука
В программах записи и редактирования звук обычно отображается в виде звуковой волны.
Звуковая волна показывает:
- по горизонтали — время
- по вертикали — амплитуду (громкость)
Волна помогает визуально определить:
- когда идёт речь
- участки тишины или пауз
- изменения громкости
Однако для систем Speech To Text волна описывает лишь, насколько громок звук, а не что это за звук.
Почему одной волны недостаточно для Speech To Text
Настоящая лингвистическая информация в речи заключена в частотном составе, а не только в амплитуде.
Разные фонемы, голоса и манеры речи определяются тем, как частоты сочетаются и меняются во времени. В форме волны эти детали спрятаны в сложных колебаниях, и машине трудно интерпретировать их напрямую.
Поэтому системы Speech To Text переводят аудио из временной области в частотную область.
От волны к спектрограмме: визуализация частот
Чтобы эффективнее анализировать речь, системы ASR строят спектрограмму, где:
- по оси x — время
- по оси y — частота
- интенсивность цвета — энергия
Спектрограмма показывает, как частотные составляющие меняются со временем, и облегчает выявление речевых паттернов. При этом «сырая» спектрограмма всё ещё не полностью соответствует тому, как человек воспринимает звук.
Лог-мел-спектрограмма: ядро Speech To Text
Здесь на сцену выходит лог-мел-спектрограмма.
Она улучшает обычную спектрограмму за счёт:
- отображения частот в мел-шкале, согласованной с человеческим слухом
- логарифмического сжатия, снижающего чувствительность к различиям громкости
В результате получается двумерное «изображение звука», на котором чётко видны:
- фонетическая структура
- особенности голоса
- временные паттерны речи
Современные модели Speech To Text, включая Whisper, используют лог-мел-спектрограмму как основной вход.
Почему лог-мел-спектрограмма необходима для Speech To Text
Лог-мел-спектрограмма даёт ряд преимуществ:
- ближе к человеческому слуху
- лучше разделяет фонемы
- устойчивее к шуму и изменениям громкости
- лучше подходит для моделей глубокого обучения
Это ключевой шаг от простого обнаружения звука к настоящему пониманию речи.
Заключение
Speech To Text — это не только обработка аудио, а понимание структуры речи. Звуковая волна позволяет нам увидеть звук, а лог-мел-спектрограмма позволяет машине его интерпретировать.
Преобразование от волны к спектрограмме и далее к лог-мел-спектрограмме — основа сегодняшних точных и надёжных систем Speech To Text.
