
Exemple Whisper en JavaScript : parole vers texte avec Node.js
Eric King
Author
Exemple Whisper en JavaScript : parole vers texte avec Node.js
Whisper est un modèle puissant de parole vers texte largement utilisé pour la voix vers texte, la transcription audio et la reconnaissance vocale sur de longs enregistrements.
Dans cet article, vous apprendrez à utiliser Whisper avec JavaScript (Node.js) pour convertir des fichiers audio en texte.
Dans cet article, vous apprendrez à utiliser Whisper avec JavaScript (Node.js) pour convertir des fichiers audio en texte.
Ce guide convient à :
- Les développeurs qui créent des fonctionnalités voix vers texte
- Les produits SaaS qui utilisent la transcription audio
- Toute personne cherchant un exemple Whisper en JavaScript
Qu’est-ce que Whisper ?
Whisper est un modèle de reconnaissance automatique de la parole (ASR) qui peut :
- Transcrire la parole en texte
- Détecter automatiquement la langue parlée
- Gérer de longs fichiers audio
- Bien fonctionner avec des enregistrements bruyants
Il est couramment utilisé pour :
- Les podcasts
- Les réunions
- Les entretiens
- Les sous-titres vidéo
Prérequis
Avant de commencer, assurez-vous d’avoir :
- Node.js 18+
- Un fichier audio (
mp3,wav,m4a, etc.) - Une clé API pour la parole vers texte (compatible Whisper)
Installez les dépendances :
npm install openai
Exemple Whisper JavaScript de base
Voici un exemple Node.js minimal qui envoie un fichier audio à Whisper et renvoie la transcription.
Structure du projet
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
Code JavaScript : audio vers texte
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Exécuter le script
node transcribe.js
Exemple de sortie :
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Transcrire de longs fichiers audio
Whisper fonctionne bien avec de longs enregistrements, par exemple :
- Podcasts
- Cours
- Entretiens
Pour les très gros fichiers, les bonnes pratiques courantes incluent :
- Découper l’audio en segments
- Transcrire de manière asynchrone
- Fusionner les résultats ensuite
Obtenir des horodatages (facultatif)
Certains systèmes basés sur Whisper prennent en charge les horodatages au niveau phrase ou mot.
C’est utile pour :
C’est utile pour :
- Les sous-titres (SRT / VTT)
- Le montage vidéo
- Les transcriptions consultables
Exemple de format de sortie :
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Formats audio pris en charge
Whisper prend en charge les formats les plus courants :
- MP3
- WAV
- M4A
- MP4
- WEBM
Pour une meilleure précision :
- Utilisez un audio clair
- Évitez le bruit de fond important
- Préférez le WAV ou le MP3 à débit élevé
Cas d’usage courants
- Voix vers texte pour les réunions
- Transcription de podcasts
- Sous-titres pour vidéos YouTube
- Transcription d’entretiens
- Transcription pour la recherche et l’enseignement
Whisper par rapport à d’autres outils parole vers texte
| Fonctionnalité | Whisper |
|---|---|
| Prise en charge audio long | ✅ |
| Multilingue | ✅ |
| Modèle open source | ✅ |
| Prise en charge JavaScript | ✅ |
| Prise en charge horodatages | ✅ |
Whisper est particulièrement solide pour la voix vers texte sur de longs contenus par rapport à de nombreuses solutions uniquement temps réel.
Conclusion
Cet exemple Whisper en JavaScript montre à quel point il est simple de créer une fonctionnalité voix vers texte avec Node.js.
En quelques lignes de code, vous pouvez transcrire des fichiers audio avec précision et le faire évoluer pour des applications réelles.
En quelques lignes de code, vous pouvez transcrire des fichiers audio avec précision et le faire évoluer pour des applications réelles.
Si vous construisez un SaaS parole vers texte, Whisper constitue une base solide pour :
- La transcription d’audio long
- La voix vers texte multilingue
- Les transcriptions horodatées
