Exemple Whisper en JavaScript : parole vers texte avec Node.js

Exemple Whisper en JavaScript : parole vers texte avec Node.js

Eric King

Eric King

Author


Exemple Whisper en JavaScript : parole vers texte avec Node.js

Whisper est un modèle puissant de parole vers texte largement utilisé pour la voix vers texte, la transcription audio et la reconnaissance vocale sur de longs enregistrements.
Dans cet article, vous apprendrez à utiliser Whisper avec JavaScript (Node.js) pour convertir des fichiers audio en texte.
Ce guide convient à :
  • Les développeurs qui créent des fonctionnalités voix vers texte
  • Les produits SaaS qui utilisent la transcription audio
  • Toute personne cherchant un exemple Whisper en JavaScript

Qu’est-ce que Whisper ?

Whisper est un modèle de reconnaissance automatique de la parole (ASR) qui peut :
  • Transcrire la parole en texte
  • Détecter automatiquement la langue parlée
  • Gérer de longs fichiers audio
  • Bien fonctionner avec des enregistrements bruyants
Il est couramment utilisé pour :
  • Les podcasts
  • Les réunions
  • Les entretiens
  • Les sous-titres vidéo

Prérequis

Avant de commencer, assurez-vous d’avoir :
  • Node.js 18+
  • Un fichier audio (mp3, wav, m4a, etc.)
  • Une clé API pour la parole vers texte (compatible Whisper)
Installez les dépendances :
npm install openai

Exemple Whisper JavaScript de base

Voici un exemple Node.js minimal qui envoie un fichier audio à Whisper et renvoie la transcription.

Structure du projet

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Code JavaScript : audio vers texte

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Exécuter le script

node transcribe.js
Exemple de sortie :
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcrire de longs fichiers audio

Whisper fonctionne bien avec de longs enregistrements, par exemple :
  • Podcasts
  • Cours
  • Entretiens
Pour les très gros fichiers, les bonnes pratiques courantes incluent :
  • Découper l’audio en segments
  • Transcrire de manière asynchrone
  • Fusionner les résultats ensuite

Obtenir des horodatages (facultatif)

Certains systèmes basés sur Whisper prennent en charge les horodatages au niveau phrase ou mot.
C’est utile pour :
  • Les sous-titres (SRT / VTT)
  • Le montage vidéo
  • Les transcriptions consultables
Exemple de format de sortie :
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formats audio pris en charge

Whisper prend en charge les formats les plus courants :
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Pour une meilleure précision :
  • Utilisez un audio clair
  • Évitez le bruit de fond important
  • Préférez le WAV ou le MP3 à débit élevé

Cas d’usage courants

  • Voix vers texte pour les réunions
  • Transcription de podcasts
  • Sous-titres pour vidéos YouTube
  • Transcription d’entretiens
  • Transcription pour la recherche et l’enseignement

Whisper par rapport à d’autres outils parole vers texte

FonctionnalitéWhisper
Prise en charge audio long
Multilingue
Modèle open source
Prise en charge JavaScript
Prise en charge horodatages
Whisper est particulièrement solide pour la voix vers texte sur de longs contenus par rapport à de nombreuses solutions uniquement temps réel.

Conclusion

Cet exemple Whisper en JavaScript montre à quel point il est simple de créer une fonctionnalité voix vers texte avec Node.js.
En quelques lignes de code, vous pouvez transcrire des fichiers audio avec précision et le faire évoluer pour des applications réelles.
Si vous construisez un SaaS parole vers texte, Whisper constitue une base solide pour :
  • La transcription d’audio long
  • La voix vers texte multilingue
  • Les transcriptions horodatées

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageVoix en texte pour réunionsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website