Exemple Whisper en JavaScript : parole vers texte avec Node.js

Whisper est un modèle puissant de parole vers texte largement utilisé pour la voix vers texte, la transcription audio et la reconnaissance vocale sur de longs enregistrements.
Dans cet article, vous apprendrez à utiliser Whisper avec JavaScript (Node.js) pour convertir des fichiers audio en texte.

Ce guide convient à :

Les développeurs qui créent des fonctionnalités voix vers texte
Les produits SaaS qui utilisent la transcription audio
Toute personne cherchant un exemple Whisper en JavaScript

Qu’est-ce que Whisper ?

Whisper est un modèle de reconnaissance automatique de la parole (ASR) qui peut :

Transcrire la parole en texte
Détecter automatiquement la langue parlée
Gérer de longs fichiers audio
Bien fonctionner avec des enregistrements bruyants

Il est couramment utilisé pour :

Les podcasts
Les réunions
Les entretiens
Les sous-titres vidéo

Prérequis

Avant de commencer, assurez-vous d’avoir :

Node.js 18+
Un fichier audio (mp3, wav, m4a, etc.)
Une clé API pour la parole vers texte (compatible Whisper)

Installez les dépendances :

npm install openai

Exemple Whisper JavaScript de base

Voici un exemple Node.js minimal qui envoie un fichier audio à Whisper et renvoie la transcription.

Structure du projet

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Code JavaScript : audio vers texte

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Exécuter le script

node transcribe.js

Exemple de sortie :

Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcrire de longs fichiers audio

Whisper fonctionne bien avec de longs enregistrements, par exemple :

Podcasts
Cours
Entretiens

Pour les très gros fichiers, les bonnes pratiques courantes incluent :

Découper l’audio en segments
Transcrire de manière asynchrone
Fusionner les résultats ensuite

Obtenir des horodatages (facultatif)

Certains systèmes basés sur Whisper prennent en charge les horodatages au niveau phrase ou mot.
C’est utile pour :

Les sous-titres (SRT / VTT)
Le montage vidéo
Les transcriptions consultables

Exemple de format de sortie :

[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formats audio pris en charge

Whisper prend en charge les formats les plus courants :

MP3
WAV
M4A
MP4
WEBM

Pour une meilleure précision :

Utilisez un audio clair
Évitez le bruit de fond important
Préférez le WAV ou le MP3 à débit élevé

Cas d’usage courants

Voix vers texte pour les réunions
Transcription de podcasts
Sous-titres pour vidéos YouTube
Transcription d’entretiens
Transcription pour la recherche et l’enseignement

Whisper par rapport à d’autres outils parole vers texte

Fonctionnalité	Whisper
Prise en charge audio long	✅
Multilingue	✅
Modèle open source	✅
Prise en charge JavaScript	✅
Prise en charge horodatages	✅

Whisper est particulièrement solide pour la voix vers texte sur de longs contenus par rapport à de nombreuses solutions uniquement temps réel.

Conclusion

Cet exemple Whisper en JavaScript montre à quel point il est simple de créer une fonctionnalité voix vers texte avec Node.js.
En quelques lignes de code, vous pouvez transcrire des fichiers audio avec précision et le faire évoluer pour des applications réelles.

Si vous construisez un SaaS parole vers texte, Whisper constitue une base solide pour :

La transcription d’audio long
La voix vers texte multilingue
Les transcriptions horodatées

Exemple Whisper en JavaScript : parole vers texte avec Node.js

Exemple Whisper en JavaScript : parole vers texte avec Node.js

Qu’est-ce que Whisper ?

Prérequis

Exemple Whisper JavaScript de base

Structure du projet

Code JavaScript : audio vers texte

Exécuter le script

Transcrire de longs fichiers audio

Obtenir des horodatages (facultatif)

Formats audio pris en charge

Cas d’usage courants

Whisper par rapport à d’autres outils parole vers texte

Conclusion

Articles liés

Qu'est-ce que la reconnaissance vocale et comment l'utiliser : guide complet pour débutants

Comment convertir de l'audio en texte en ligne : méthodes gratuites et précises (Guide 2026)

Comment supprimer le bruit de fond pour le STT : guide complet de réduction du bruit pour la transcription vocale

Essayer gratuitement maintenant