
Esempio Whisper in JavaScript: voce a testo con Node.js
Eric King
Author
Esempio Whisper in JavaScript: voce a testo con Node.js
Whisper è un potente modello voce a testo ampiamente usato per voce a testo, trascrizione audio e riconoscimento vocale su registrazioni lunghe.
In questo articolo imparerete a usare Whisper con JavaScript (Node.js) per convertire file audio in testo.
In questo articolo imparerete a usare Whisper con JavaScript (Node.js) per convertire file audio in testo.
Questa guida è adatta a:
- Sviluppatori che creano funzionalità voce a testo
- Prodotti SaaS che usano la trascrizione audio
- Chiunque cerchi un esempio Whisper in JavaScript
Cos’è Whisper?
Whisper è un modello di riconoscimento automatico del parlato (ASR) che può:
- Trascrivere il parlato in testo
- Rilevare automaticamente la lingua parlata
- Gestire file audio lunghi
- Funzionare bene anche con registrazioni rumorose
È comunemente usato per:
- Podcast
- Riunioni
- Interviste
- Sottotitoli video
Prerequisiti
Prima di iniziare, assicuratevi di avere:
- Node.js 18+
- Un file audio (
mp3,wav,m4a, ecc.) - Una chiave API per voce a testo (compatibile con Whisper)
Installate le dipendenze:
npm install openai
Esempio base di Whisper in JavaScript
Di seguito un esempio minimo in Node.js che invia un file audio a Whisper e restituisce la trascrizione.
Struttura del progetto
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
Codice JavaScript: audio in testo
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Eseguire lo script
node transcribe.js
Esempio di output:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Trascrivere file audio lunghi
Whisper funziona bene con registrazioni lunghe, ad esempio:
- Podcast
- Lezioni
- Interviste
Per file molto grandi, le buone pratiche comuni includono:
- Dividere l’audio in segmenti
- Trascrivere in modo asincrono
- Unire i risultati in seguito
Ottenere timestamp (opzionale)
Alcuni sistemi basati su Whisper supportano i timestamp a livello di frase o parola.
È utile per:
È utile per:
- Sottotitoli (SRT / VTT)
- Montaggio video
- Trascrizioni ricercabili
Formato di output di esempio:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Formati audio supportati
Whisper supporta i formati più comuni:
- MP3
- WAV
- M4A
- MP4
- WEBM
Per la massima accuratezza:
- Usate audio chiaro
- Evitate forte rumore di fondo
- Preferite WAV o MP3 ad alto bitrate
Casi d’uso comuni
- Voce a testo per riunioni
- Trascrizione di podcast
- Sottotitoli per video YouTube
- Trascrizione di interviste
- Trascrizione per ricerca e università
Whisper rispetto ad altri strumenti voce a testo
| Funzionalità | Whisper |
|---|---|
| Supporto audio lungo | ✅ |
| Multilingue | ✅ |
| Modello open source | ✅ |
| Supporto JavaScript | ✅ |
| Supporto timestamp | ✅ |
Whisper è particolarmente forte per la voce a testo su contenuti lunghi rispetto a molte soluzioni solo in tempo reale.
Conclusione
Questo esempio Whisper in JavaScript mostra quanto sia semplice creare una funzionalità voce a testo con Node.js.
Con poche righe di codice potete trascrivere file audio in modo accurato e scalare per applicazioni reali.
Con poche righe di codice potete trascrivere file audio in modo accurato e scalare per applicazioni reali.
Se state costruendo un SaaS voce a testo, Whisper è una base solida per:
- Trascrizione di audio lungo
- Voce a testo multilingue
- Trascrizioni con timestamp
