Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Eric King

Eric King

Author


Whisper-JavaScript-Beispiel: Sprache-zu-Text mit Node.js

Whisper ist ein leistungsfähiges Sprache-zu-Text-Modell, das häufig für Stimme zu Text, Audiotranskription und Langform-Spracherkennung eingesetzt wird.
In diesem Artikel erfahren Sie, wie Sie Whisper mit JavaScript (Node.js) nutzen, um Audiodateien in Text umzuwandeln.
Diese Anleitung richtet sich an:
  • Entwicklerinnen und Entwickler, die Stimme-zu-Text-Funktionen bauen
  • SaaS-Produkte mit Audiotranskription
  • Alle, die ein Whisper-JavaScript-Beispiel suchen

Was ist Whisper?

Whisper ist ein Modell zur automatischen Spracherkennung (ASR), das kann:
  • Sprache in Text transkribieren
  • Gesprochene Sprachen automatisch erkennen
  • lange Audiodateien verarbeiten
  • auch bei verrauschten Aufnahmen gut funktionieren
Es wird häufig genutzt für:
  • Podcasts
  • Meetings
  • Interviews
  • Videountertitel

Voraussetzungen

Bevor Sie starten, sollten Sie Folgendes haben:
  • Node.js 18+
  • eine Audiodatei (mp3, wav, m4a usw.)
  • einen API-Schlüssel für Sprache-zu-Text (Whisper-kompatibel)
Abhängigkeiten installieren:
npm install openai

Einfaches Whisper-JavaScript-Beispiel

Unten finden Sie ein minimales Node.js-Beispiel, das eine Audiodatei an Whisper sendet und die Transkription zurückgibt.

Projektstruktur

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

JavaScript-Code: Audio zu Text

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Skript ausführen

node transcribe.js
Beispielausgabe:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transkription langer Audiodateien

Whisper funktioniert gut mit langen Aufnahmen, etwa:
  • Podcasts
  • Vorlesungen
  • Interviews
Bei sehr großen Dateien gehören zu gängigen Best Practices:
  • Audio in Abschnitte teilen
  • asynchron transkribieren
  • Ergebnisse anschließend zusammenführen

Zeitstempel (optional)

Einige Whisper-basierte Systeme unterstützen Zeitstempel auf Satz- oder Wortebene.
Das ist nützlich für:
  • Untertitel (SRT / VTT)
  • Videoschnitt
  • durchsuchbare Transkripte
Beispielformat der Ausgabe:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Unterstützte Audioformate

Whisper unterstützt die gängigsten Formate:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Für die beste Genauigkeit:
  • klares Audio verwenden
  • starke Hintergrundgeräusche vermeiden
  • WAV oder hochbitratiges MP3 bevorzugen

Typische Anwendungsfälle

  • Stimme zu Text für Meetings
  • Podcast-Transkription
  • YouTube-Videountertitel
  • Interview-Transkription
  • Forschungs- und Hochschul-Transkription

Whisper im Vergleich mit anderen Sprache-zu-Text-Tools

FunktionWhisper
Unterstützung langer Audios
Mehrsprachigkeit
Open-Source-Modell
JavaScript-Unterstützung
Zeitstempel
Whisper ist besonders stark bei Langform-Stimme-zu-Text im Vergleich zu vielen rein Echtzeit-Lösungen.

Fazit

Dieses Whisper-JavaScript-Beispiel zeigt, wie einfach sich eine Stimme-zu-Text-Funktion mit Node.js umsetzen lässt.
Mit wenigen Zeilen Code können Sie Audiodateien zuverlässig transkribieren und das für reale Anwendungen skalieren.
Wenn Sie eine Sprache-zu-Text-SaaS bauen, ist Whisper eine solide Basis für:
  • lange Audiotranskription
  • mehrsprachiges Stimme zu Text
  • transkripte mit Zeitstempeln

Jetzt kostenlos testen

Testen Sie jetzt unseren KI‑basierten Dienst für Sprache, Audio und Video. Sie erhalten nicht nur hochpräzise Sprach‑zu‑Text‑Transkription, mehrsprachige Übersetzung und intelligente Sprechertrennung, sondern auch automatische Untertitelgenerierung für Videos, intelligente Bearbeitung von Audio‑ und Videoinhalten sowie synchronisierte Audio‑/Bild‑Analyse. Damit decken Sie alle Szenarien ab – von Meeting‑Protokollen über Short‑Video‑Produktion bis hin zur Podcast‑Erstellung. Starten Sie noch heute Ihre kostenlose Testphase!

Sound zu Text OnlineSound zu Text KostenlosSound zu Text KonverterSound zu Text MP3Sound zu Text WAVSound zu Text mit ZeitstempelSprache zu Text für MeetingsSound to Text Multi LanguageSound zu Text UntertitelWAV in Text konvertierenStimme zu TextStimme zu Text OnlineSprache zu TextMP3 in Text konvertierenSprachaufnahme zu TextOnline SpracheingabeStimme zu Text mit ZeitstempelnStimme zu Text in EchtzeitStimme zu Text für lange AudioStimme zu Text für VideoSprache zu Text für YouTubeSprache zu Text für VideobearbeitungSprache zu Text für UntertitelSprache zu Text für PodcastsSprache zu Text für InterviewsInterview-Audio zu TextSprache zu Text für AufnahmenSprache zu Text für MeetingsSprache zu Text für VorlesungenSprache zu Text für NotizenStimme zu Text MehrsprachigStimme zu Text PräziseStimme zu Text SchnellPremiere Pro Stimme zu Text AlternativeDaVinci Stimme zu Text AlternativeVEED Stimme zu Text AlternativeInVideo Stimme zu Text AlternativeOtter.ai Stimme zu Text AlternativeDescript Stimme zu Text AlternativeTrint Stimme zu Text AlternativeRev Stimme zu Text AlternativeSonix Stimme zu Text AlternativeHappy Scribe Stimme zu Text AlternativeZoom Stimme zu Text AlternativeGoogle Meet Stimme zu Text AlternativeMicrosoft Teams Stimme zu Text AlternativeFireflies.ai Stimme zu Text AlternativeFathom Stimme zu Text AlternativeFlexClip Stimme zu Text AlternativeKapwing Stimme zu Text AlternativeCanva Stimme zu Text AlternativeSprache-zu-Text für lange AudioKI Sprache zu TextKostenlose Sprache zu TextSprache zu Text ohne WerbungSprache zu Text für lautes AudioSprache zu Text mit ZeitUntertitel aus Audio generierenPodcast-Transkription OnlineKundengespräche TranskribierenTikTok Sprache zu TextTikTok Audio zu TextYouTube Sprache zu TextYouTube Audio zu TextSprachnotiz zu TextWhatsApp-Sprachnachricht zu TextTelegram-Sprachnachricht zu TextDiscord-Anruf-TranskriptionTwitch-Sprache zu TextSkype-Sprache zu TextMessenger-Sprache zu TextLINE-Sprachnachricht zu TextVlogs in Text transkribierenPredigt-Audio in Text konvertierenSprache in Schrift umwandelnAudio in Text übersetzenAudio-Notizen in Text umwandelnSpracheingabeSpracheingabe für BesprechungenSpracheingabe für YouTubeSprechen statt TippenFreihändiges TippenStimme zu WörternSprache zu WörternSprache zu Text OnlineOnline Transcription SoftwareSprache zu Text für BesprechungenSchnelle Sprache zu TextReal Time Speech to TextLive Transcription AppSprache zu Text für TikTokTon zu Text für TikTokSprechen zu WörternSprache zu TextTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio zu TippenTon zu TextSprach-SchreibwerkzeugSprach-SchreibwerkzeugSprachdiktatRechtliche Transkriptions-ToolMedizinisches Diktier-ToolJapanische Audio-TranskriptionKoreanische Meeting-TranskriptionMeeting-Transkriptions-ToolMeeting-Audio zu TextVorlesung-zu-Text-KonverterVorlesungs-Audio zu TextVideo-zu-Text-TranskriptionUntertitel-Generator für TikTokCall-Center-TranskriptionReels Audio zu Text ToolMP3 in Text transkribierenWAV-Datei in Text transkribierenCapCut Sprache zu TextCapCut Sprache zu TextVoice to Text in EnglishAudio zu Text EnglischVoice to Text in SpanishVoice to Text in FrenchAudio zu Text FranzösischVoice to Text in GermanAudio zu Text DeutschVoice to Text in JapaneseAudio zu Text JapanischVoice to Text in KoreanAudio zu Text KoreanischVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website