
Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js
Eric King
Author
Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js
Whisper ist ein leistungsfähiges Sprache-zu-Text-Modell, das häufig für Stimme zu Text, Audiotranskription und Langform-Spracherkennung eingesetzt wird.
In diesem Artikel erfahren Sie, wie Sie Whisper mit JavaScript (Node.js) nutzen, um Audiodateien in Text umzuwandeln.
In diesem Artikel erfahren Sie, wie Sie Whisper mit JavaScript (Node.js) nutzen, um Audiodateien in Text umzuwandeln.
Diese Anleitung richtet sich an:
- Entwicklerinnen und Entwickler, die Stimme-zu-Text-Funktionen bauen
- SaaS-Produkte mit Audiotranskription
- Alle, die ein Whisper-JavaScript-Beispiel suchen
Was ist Whisper?
Whisper ist ein Modell zur automatischen Spracherkennung (ASR), das kann:
- Sprache in Text transkribieren
- Gesprochene Sprachen automatisch erkennen
- lange Audiodateien verarbeiten
- auch bei verrauschten Aufnahmen gut funktionieren
Es wird häufig genutzt für:
- Podcasts
- Meetings
- Interviews
- Videountertitel
Voraussetzungen
Bevor Sie starten, sollten Sie Folgendes haben:
- Node.js 18+
- eine Audiodatei (
mp3,wav,m4ausw.) - einen API-Schlüssel für Sprache-zu-Text (Whisper-kompatibel)
Abhängigkeiten installieren:
npm install openai
Einfaches Whisper-JavaScript-Beispiel
Unten finden Sie ein minimales Node.js-Beispiel, das eine Audiodatei an Whisper sendet und die Transkription zurückgibt.
Projektstruktur
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
JavaScript-Code: Audio zu Text
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Skript ausführen
node transcribe.js
Beispielausgabe:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Transkription langer Audiodateien
Whisper funktioniert gut mit langen Aufnahmen, etwa:
- Podcasts
- Vorlesungen
- Interviews
Bei sehr großen Dateien gehören zu gängigen Best Practices:
- Audio in Abschnitte teilen
- asynchron transkribieren
- Ergebnisse anschließend zusammenführen
Zeitstempel (optional)
Einige Whisper-basierte Systeme unterstützen Zeitstempel auf Satz- oder Wortebene.
Das ist nützlich für:
Das ist nützlich für:
- Untertitel (SRT / VTT)
- Videoschnitt
- durchsuchbare Transkripte
Beispielformat der Ausgabe:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Unterstützte Audioformate
Whisper unterstützt die gängigsten Formate:
- MP3
- WAV
- M4A
- MP4
- WEBM
Für die beste Genauigkeit:
- klares Audio verwenden
- starke Hintergrundgeräusche vermeiden
- WAV oder hochbitratiges MP3 bevorzugen
Typische Anwendungsfälle
- Stimme zu Text für Meetings
- Podcast-Transkription
- YouTube-Videountertitel
- Interview-Transkription
- Forschungs- und Hochschul-Transkription
Whisper im Vergleich mit anderen Sprache-zu-Text-Tools
| Funktion | Whisper |
|---|---|
| Unterstützung langer Audios | ✅ |
| Mehrsprachigkeit | ✅ |
| Open-Source-Modell | ✅ |
| JavaScript-Unterstützung | ✅ |
| Zeitstempel | ✅ |
Whisper ist besonders stark bei Langform-Stimme-zu-Text im Vergleich zu vielen rein Echtzeit-Lösungen.
Fazit
Dieses Whisper-JavaScript-Beispiel zeigt, wie einfach sich eine Stimme-zu-Text-Funktion mit Node.js umsetzen lässt.
Mit wenigen Zeilen Code können Sie Audiodateien zuverlässig transkribieren und das für reale Anwendungen skalieren.
Mit wenigen Zeilen Code können Sie Audiodateien zuverlässig transkribieren und das für reale Anwendungen skalieren.
Wenn Sie eine Sprache-zu-Text-SaaS bauen, ist Whisper eine solide Basis für:
- lange Audiotranskription
- mehrsprachiges Stimme zu Text
- transkripte mit Zeitstempeln
