
Whisper JavaScript-voorbeeld: spraak naar tekst met Node.js
Eric King
Author
Whisper JavaScript-voorbeeld: spraak naar tekst met Node.js
Whisper is een krachtig spraak-naar-tekstmodel dat veel wordt gebruikt voor stem naar tekst, audiotranscriptie en langere spraakherkenning.
In dit artikel leert u Whisper met JavaScript (Node.js) te gebruiken om audiobestanden om te zetten in tekst.
In dit artikel leert u Whisper met JavaScript (Node.js) te gebruiken om audiobestanden om te zetten in tekst.
Deze gids is geschikt voor:
- Ontwikkelaars die spraak-naar-tekst-functionaliteit bouwen
- SaaS-producten die audiotranscriptie gebruiken
- Iedereen die een Whisper JavaScript-voorbeeld zoekt
Wat is Whisper?
Whisper is een model voor automatische spraakherkenning (ASR) dat kan:
- Spraak transcriberen naar tekst
- Gesproken taal automatisch detecteren
- Lange audiobestanden verwerken
- Goed presteren bij rumoerige opnames
Het wordt vaak gebruikt voor:
- Podcasts
- Vergaderingen
- Interviews
- Video-ondertitels
Vereisten
Zorg voordat u begint dat u het volgende hebt:
- Node.js 18+
- Een audiobestand (
mp3,wav,m4a, enz.) - Een API-sleutel voor spraak naar tekst (Whisper-compatibel)
Installeer afhankelijkheden:
npm install openai
Basis Whisper JavaScript-voorbeeld
Hieronder staat een minimaal Node.js-voorbeeld dat een audiobestand naar Whisper stuurt en de transcriptie teruggeeft.
Projectstructuur
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
JavaScript-code: audio naar tekst
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Script uitvoeren
node transcribe.js
Voorbeelduitvoer:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Lange audiobestanden transcriberen
Whisper werkt goed met lange opnames, zoals:
- Podcasts
- Colleges
- Interviews
Voor zeer grote bestanden horen gangbare best practices:
- Audio in stukken splitsen
- Asynchroon transcriberen
- Resultaten daarna samenvoegen
Tijdstempels (optioneel)
Sommige Whisper-gebaseerde systemen ondersteunen tijdstempels op zin- of woordniveau.
Dat is handig voor:
Dat is handig voor:
- Ondertitels (SRT / VTT)
- Videobewerking
- Doorzoekbare transcripties
Voorbeeld uitvoerformaat:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Ondersteunde audioformaten
Whisper ondersteunt de meest gangbare formaten:
- MP3
- WAV
- M4A
- MP4
- WEBM
Voor de beste nauwkeurigheid:
- Gebruik heldere audio
- Vermijd veel achtergrondgeluid
- Geef de voorkeur aan WAV of MP3 met hoge bitrate
Veelvoorkomende use cases
- Spraak naar tekst voor vergaderingen
- Podcasttranscriptie
- YouTube-video-ondertitels
- Interviewtranscriptie
- Onderzoeks- en academische transcriptie
Whisper versus andere spraak-naar-teksttools
| Functie | Whisper |
|---|---|
| Lange audio-ondersteuning | ✅ |
| Meertalig | ✅ |
| Open-sourcemodel | ✅ |
| JavaScript-ondersteuning | ✅ |
| Tijdstempelondersteuning | ✅ |
Whisper is vooral sterk in lange spraak naar tekst vergeleken met veel alleen-realtime oplossingen.
Conclusie
Dit Whisper JavaScript-voorbeeld laat zien hoe eenvoudig het is om spraak naar tekst te bouwen met Node.js.
Met slechts een paar regels code transcribeert u audiobestanden nauwkeurig en schaalt u het voor echte toepassingen.
Met slechts een paar regels code transcribeert u audiobestanden nauwkeurig en schaalt u het voor echte toepassingen.
Als u een spraak-naar-tekst-SaaS bouwt, is Whisper een solide basis voor:
- Lange audiotranscriptie
- Meertalige spraak naar tekst
- Getimede transcripties
