음성 인식의 원리: 오디오 파형에서 로그 멜 스펙트로그램까지

Speech To Text(음성-텍스트 변환) 기술은 회의록 작성, 동영상 자막, 음성 입력, 지능형 비서 등에서 널리 쓰입니다. 그런데 귀가 없는 컴퓨터는 어떻게 사람의 말을 이해할까요?

이 질문에 답하려면 가장 익숙한 오디오 표현인 오디오 파형에서 출발해, 현대 ASR(자동 음성 인식)의 핵심 특징인 로그 멜 스펙트로그램까지 단계적으로 따라가야 합니다.

오디오 파형: 가장 친숙한 소리의 표현

녹음이나 편집 도구에서 소리는 보통 오디오 파형으로 표시됩니다.

오디오 파형은 다음을 보여 줍니다.

파형은 사용자가 시각적으로 다음을 파악하는 데 도움이 됩니다.

하지만 Speech To Text 관점에서 파형은 소리가 얼마나 큰지만 알려 줄 뿐, 소리가 무엇인지까지는 충분히 담지 못합니다.

말에 담긴 진짜 언어 정보는 진폭뿐 아니라 주파수 내용에 있습니다.

서로 다른 음소, 목소리, 말투는 주파수가 어떻게 조합되고 시간에 따라 어떻게 변하는지로 정의됩니다. 파형 안에서는 이런 세부 정보가 복잡한 진동 속에 숨어 있어 기계가 직접 해석하기 어렵습니다.

그래서 Speech To Text 시스템은 시간 영역의 오디오를 주파수 영역으로 바꿉니다.

음성을 더 잘 분석하기 위해 ASR은 스펙트로그램을 만듭니다. 이는 다음을 보여 줍니다.

스펙트로그램은 주파수 성분이 시간에 따라 어떻게 바뀌는지 드러내어 음성 패턴을 식별하기 쉽게 합니다. 다만 원시 스펙트로그램만으로는 사람이 소리를 느끼는 방식과 완전히 맞지는 않습니다.

여기서 로그 멜 스펙트로그램이 등장합니다.

일반 스펙트로그램을 다음처럼 개선합니다.

그 결과 다음이 또렷이 담긴 2차원 “소리 이미지”가 됩니다.

Whisper를 포함한 현대 Speech To Text 모델은 주 입력으로 로그 멜 스펙트로그램을 사용합니다.

로그 멜 스펙트로그램은 다음과 같은 장점이 있습니다.

단순히 소리가 있는지 감지하는 단계에서 말을 진짜로 이해하는 단계로 넘어가는 결정적인 다리입니다.

Speech To Text는 오디오만 처리하는 것이 아니라 말의 구조를 이해하는 일입니다. 오디오 파형은 소리를 “보게” 해 주지만, 로그 멜 스펙트로그램은 기계가 그것을 해석하게 해 줍니다.

파형에서 스펙트로그램, 그리고 로그 멜 스펙트로그램으로의 변환은 오늘날 정확하고 신뢰할 수 있는 Speech To Text의 기반이 됩니다.