Esempio Whisper in JavaScript: voce a testo con Node.js

Whisper è un potente modello voce a testo ampiamente usato per voce a testo, trascrizione audio e riconoscimento vocale su registrazioni lunghe.
In questo articolo imparerete a usare Whisper con JavaScript (Node.js) per convertire file audio in testo.

Questa guida è adatta a:

Sviluppatori che creano funzionalità voce a testo
Prodotti SaaS che usano la trascrizione audio
Chiunque cerchi un esempio Whisper in JavaScript

Cos’è Whisper?

Whisper è un modello di riconoscimento automatico del parlato (ASR) che può:

Trascrivere il parlato in testo
Rilevare automaticamente la lingua parlata
Gestire file audio lunghi
Funzionare bene anche con registrazioni rumorose

È comunemente usato per:

Podcast
Riunioni
Interviste
Sottotitoli video

Prerequisiti

Prima di iniziare, assicuratevi di avere:

Node.js 18+
Un file audio (mp3, wav, m4a, ecc.)
Una chiave API per voce a testo (compatibile con Whisper)

Installate le dipendenze:

npm install openai

Esempio base di Whisper in JavaScript

Di seguito un esempio minimo in Node.js che invia un file audio a Whisper e restituisce la trascrizione.

Struttura del progetto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Codice JavaScript: audio in testo

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Eseguire lo script

node transcribe.js

Esempio di output:

Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Trascrivere file audio lunghi

Whisper funziona bene con registrazioni lunghe, ad esempio:

Podcast
Lezioni
Interviste

Per file molto grandi, le buone pratiche comuni includono:

Dividere l’audio in segmenti
Trascrivere in modo asincrono
Unire i risultati in seguito

Ottenere timestamp (opzionale)

Alcuni sistemi basati su Whisper supportano i timestamp a livello di frase o parola.
È utile per:

Sottotitoli (SRT / VTT)
Montaggio video
Trascrizioni ricercabili

Formato di output di esempio:

[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formati audio supportati

Whisper supporta i formati più comuni:

MP3
WAV
M4A
MP4
WEBM

Per la massima accuratezza:

Usate audio chiaro
Evitate forte rumore di fondo
Preferite WAV o MP3 ad alto bitrate

Casi d’uso comuni

Voce a testo per riunioni
Trascrizione di podcast
Sottotitoli per video YouTube
Trascrizione di interviste
Trascrizione per ricerca e università

Whisper rispetto ad altri strumenti voce a testo

Funzionalità	Whisper
Supporto audio lungo	✅
Multilingue	✅
Modello open source	✅
Supporto JavaScript	✅
Supporto timestamp	✅

Whisper è particolarmente forte per la voce a testo su contenuti lunghi rispetto a molte soluzioni solo in tempo reale.

Conclusione

Questo esempio Whisper in JavaScript mostra quanto sia semplice creare una funzionalità voce a testo con Node.js.
Con poche righe di codice potete trascrivere file audio in modo accurato e scalare per applicazioni reali.

Se state costruendo un SaaS voce a testo, Whisper è una base solida per:

Trascrizione di audio lungo
Voce a testo multilingue
Trascrizioni con timestamp

Esempio Whisper in JavaScript: voce a testo con Node.js

Esempio Whisper in JavaScript: voce a testo con Node.js

Cos’è Whisper?

Prerequisiti

Esempio base di Whisper in JavaScript

Struttura del progetto

Codice JavaScript: audio in testo

Eseguire lo script

Trascrivere file audio lunghi

Ottenere timestamp (opzionale)

Formati audio supportati

Casi d’uso comuni

Whisper rispetto ad altri strumenti voce a testo

Conclusione

Articoli correlati

Cos'è il riconoscimento vocale e come usarlo: guida completa per principianti

Come Convertire Audio in Testo Online: Metodi Gratuiti e Accurati (Guida 2026)

Come rimuovere il rumore di fondo per STT: guida completa alla riduzione del rumore per speech-to-text

Provalo gratis ora