
Whisper JavaScript 예제: Node.js로 음성을 텍스트로
Eric King
Author
Whisper JavaScript 예제: Node.js로 음성을 텍스트로
Whisper는 음성을 텍스트로, 오디오 전사, 긴 음성 인식에 널리 쓰이는 강력한 음성-텍스트 모델입니다.
이 글에서는 JavaScript(Node.js)와 함께 Whisper를 사용해 오디오 파일을 텍스트로 바꾸는 방법을 설명합니다.
이 글에서는 JavaScript(Node.js)와 함께 Whisper를 사용해 오디오 파일을 텍스트로 바꾸는 방법을 설명합니다.
다음에 적합합니다.
- 음성-텍스트 기능을 만드는 개발자
- 오디오 전사를 쓰는 SaaS 제품
- Whisper JavaScript 예제를 찾는 분
Whisper란?
Whisper는 자동 음성 인식(ASR) 모델로, 다음을 할 수 있습니다.
- 말을 텍스트로 전사
- 말하는 언어를 자동 감지
- 긴 오디오 파일 처리
- 노이즈가 있는 녹음에서도 비교적 잘 동작
일반적으로 다음에 쓰입니다.
- 팟캐스트
- 회의
- 인터뷰
- 동영상 자막
사전 요구 사항
시작하기 전에 다음을 준비하세요.
- Node.js 18 이상
- 오디오 파일(
mp3,wav,m4a등) - 음성-텍스트용 API 키(Whisper 호환)
의존성을 설치합니다.
npm install openai
기본 Whisper JavaScript 예제
아래는 오디오 파일을 Whisper로 보내 전사 결과를 돌려받는 최소 Node.js 예제입니다.
프로젝트 구조
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
JavaScript 코드: 오디오를 텍스트로
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
스크립트 실행
node transcribe.js
출력 예:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
긴 오디오 파일 전사
Whisper는 긴 녹음에도 잘 맞습니다. 예:
- 팟캐스트
- 강의
- 인터뷰
아주 큰 파일의 경우 흔한 권장 사항은 다음과 같습니다.
- 오디오를 청크로 나누기
- 비동기로 전사
- 이후 결과 합치기
타임스탬프(선택)
일부 Whisper 기반 시스템은 문장 또는 단어 수준 타임스탬프를 지원합니다.
다음에 유용합니다.
다음에 유용합니다.
- 자막(SRT / VTT)
- 영상 편집
- 검색 가능한 전사본
출력 형식 예:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
지원 오디오 형식
Whisper는 일반적인 대부분의 형식을 지원합니다.
- MP3
- WAV
- M4A
- MP4
- WEBM
정확도를 높이려면:
- 선명한 오디오 사용
- 큰 배경 소음 피하기
- WAV 또는 고비트레이트 MP3 선호
일반적인 사용 사례
- 회의용 음성-텍스트
- 팟캐스트 전사
- YouTube 동영상 자막
- 인터뷰 전사
- 연구·학술 전사
Whisper와 다른 음성-텍스트 도구
| 기능 | Whisper |
|---|---|
| 긴 오디오 지원 | ✅ |
| 다국어 | ✅ |
| 오픈소스 모델 | ✅ |
| JavaScript 지원 | ✅ |
| 타임스탬프 지원 | ✅ |
Whisper는 실시간 전용 솔루션과 비교할 때 긴 형식의 음성-텍스트에 특히 강합니다.
마무리
이 Whisper JavaScript 예제는 Node.js로 음성-텍스트 기능을 얼마나 쉽게 만들 수 있는지 보여 줍니다.
몇 줄의 코드만으로 오디오 파일을 정확히 전사하고 실제 서비스에 맞게 확장할 수 있습니다.
몇 줄의 코드만으로 오디오 파일을 정확히 전사하고 실제 서비스에 맞게 확장할 수 있습니다.
음성-텍스트 SaaS를 만든다면 Whisper는 다음을 위한 든든한 기반입니다.
- 긴 오디오 전사
- 다국어 음성-텍스트
- 타임스탬프가 있는 전사본
