Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Whisper ist ein leistungsfähiges Sprache-zu-Text-Modell, das häufig für Stimme zu Text, Audiotranskription und Langform-Spracherkennung eingesetzt wird.
In diesem Artikel erfahren Sie, wie Sie Whisper mit JavaScript (Node.js) nutzen, um Audiodateien in Text umzuwandeln.

Diese Anleitung richtet sich an:

Entwicklerinnen und Entwickler, die Stimme-zu-Text-Funktionen bauen
SaaS-Produkte mit Audiotranskription
Alle, die ein Whisper-JavaScript-Beispiel suchen

Was ist Whisper?

Whisper ist ein Modell zur automatischen Spracherkennung (ASR), das kann:

Sprache in Text transkribieren
Gesprochene Sprachen automatisch erkennen
lange Audiodateien verarbeiten
auch bei verrauschten Aufnahmen gut funktionieren

Es wird häufig genutzt für:

Podcasts
Meetings
Interviews
Videountertitel

Voraussetzungen

Bevor Sie starten, sollten Sie Folgendes haben:

Node.js 18+
eine Audiodatei (mp3, wav, m4a usw.)
einen API-Schlüssel für Sprache-zu-Text (Whisper-kompatibel)

Abhängigkeiten installieren:

npm install openai

Einfaches Whisper-JavaScript-Beispiel

Unten finden Sie ein minimales Node.js-Beispiel, das eine Audiodatei an Whisper sendet und die Transkription zurückgibt.

Projektstruktur

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

JavaScript-Code: Audio zu Text

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Skript ausführen

node transcribe.js

Beispielausgabe:

Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transkription langer Audiodateien

Whisper funktioniert gut mit langen Aufnahmen, etwa:

Podcasts
Vorlesungen
Interviews

Bei sehr großen Dateien gehören zu gängigen Best Practices:

Audio in Abschnitte teilen
asynchron transkribieren
Ergebnisse anschließend zusammenführen

Zeitstempel (optional)

Einige Whisper-basierte Systeme unterstützen Zeitstempel auf Satz- oder Wortebene.
Das ist nützlich für:

Untertitel (SRT / VTT)
Videoschnitt
durchsuchbare Transkripte

Beispielformat der Ausgabe:

[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Unterstützte Audioformate

Whisper unterstützt die gängigsten Formate:

MP3
WAV
M4A
MP4
WEBM

Für die beste Genauigkeit:

klares Audio verwenden
starke Hintergrundgeräusche vermeiden
WAV oder hochbitratiges MP3 bevorzugen

Typische Anwendungsfälle

Stimme zu Text für Meetings
Podcast-Transkription
YouTube-Videountertitel
Interview-Transkription
Forschungs- und Hochschul-Transkription

Whisper im Vergleich mit anderen Sprache-zu-Text-Tools

Funktion	Whisper
Unterstützung langer Audios	✅
Mehrsprachigkeit	✅
Open-Source-Modell	✅
JavaScript-Unterstützung	✅
Zeitstempel	✅

Whisper ist besonders stark bei Langform-Stimme-zu-Text im Vergleich zu vielen rein Echtzeit-Lösungen.

Fazit

Dieses Whisper-JavaScript-Beispiel zeigt, wie einfach sich eine Stimme-zu-Text-Funktion mit Node.js umsetzen lässt.
Mit wenigen Zeilen Code können Sie Audiodateien zuverlässig transkribieren und das für reale Anwendungen skalieren.

Wenn Sie eine Sprache-zu-Text-SaaS bauen, ist Whisper eine solide Basis für:

lange Audiotranskription
mehrsprachiges Stimme zu Text
transkripte mit Zeitstempeln

Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Was ist Whisper?

Voraussetzungen

Einfaches Whisper-JavaScript-Beispiel

Projektstruktur

JavaScript-Code: Audio zu Text

Skript ausführen

Transkription langer Audiodateien

Zeitstempel (optional)

Unterstützte Audioformate

Typische Anwendungsfälle

Whisper im Vergleich mit anderen Sprache-zu-Text-Tools

Fazit

Ähnliche Beiträge

Was ist Sprache-zu-Text und wie nutzt man es? Ein vollständiger Leitfaden für Einsteiger

Audio online in Text umwandeln: Kostenlose & genaue Methoden (Leitfaden 2026)

Wie man Hintergrundgeräusche für STT entfernt: Vollständiger Leitfaden zur Rauschunterdrückung für Speech-to-Text

Jetzt kostenlos testen