Esempio Whisper in JavaScript: voce a testo con Node.js

Esempio Whisper in JavaScript: voce a testo con Node.js

Eric King

Eric King

Author


Esempio Whisper in JavaScript: voce a testo con Node.js

Whisper è un potente modello voce a testo ampiamente usato per voce a testo, trascrizione audio e riconoscimento vocale su registrazioni lunghe.
In questo articolo imparerete a usare Whisper con JavaScript (Node.js) per convertire file audio in testo.
Questa guida è adatta a:
  • Sviluppatori che creano funzionalità voce a testo
  • Prodotti SaaS che usano la trascrizione audio
  • Chiunque cerchi un esempio Whisper in JavaScript

Cos’è Whisper?

Whisper è un modello di riconoscimento automatico del parlato (ASR) che può:
  • Trascrivere il parlato in testo
  • Rilevare automaticamente la lingua parlata
  • Gestire file audio lunghi
  • Funzionare bene anche con registrazioni rumorose
È comunemente usato per:
  • Podcast
  • Riunioni
  • Interviste
  • Sottotitoli video

Prerequisiti

Prima di iniziare, assicuratevi di avere:
  • Node.js 18+
  • Un file audio (mp3, wav, m4a, ecc.)
  • Una chiave API per voce a testo (compatibile con Whisper)
Installate le dipendenze:
npm install openai

Esempio base di Whisper in JavaScript

Di seguito un esempio minimo in Node.js che invia un file audio a Whisper e restituisce la trascrizione.

Struttura del progetto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Codice JavaScript: audio in testo

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Eseguire lo script

node transcribe.js
Esempio di output:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Trascrivere file audio lunghi

Whisper funziona bene con registrazioni lunghe, ad esempio:
  • Podcast
  • Lezioni
  • Interviste
Per file molto grandi, le buone pratiche comuni includono:
  • Dividere l’audio in segmenti
  • Trascrivere in modo asincrono
  • Unire i risultati in seguito

Ottenere timestamp (opzionale)

Alcuni sistemi basati su Whisper supportano i timestamp a livello di frase o parola.
È utile per:
  • Sottotitoli (SRT / VTT)
  • Montaggio video
  • Trascrizioni ricercabili
Formato di output di esempio:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formati audio supportati

Whisper supporta i formati più comuni:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Per la massima accuratezza:
  • Usate audio chiaro
  • Evitate forte rumore di fondo
  • Preferite WAV o MP3 ad alto bitrate

Casi d’uso comuni

  • Voce a testo per riunioni
  • Trascrizione di podcast
  • Sottotitoli per video YouTube
  • Trascrizione di interviste
  • Trascrizione per ricerca e università

Whisper rispetto ad altri strumenti voce a testo

FunzionalitàWhisper
Supporto audio lungo
Multilingue
Modello open source
Supporto JavaScript
Supporto timestamp
Whisper è particolarmente forte per la voce a testo su contenuti lunghi rispetto a molte soluzioni solo in tempo reale.

Conclusione

Questo esempio Whisper in JavaScript mostra quanto sia semplice creare una funzionalità voce a testo con Node.js.
Con poche righe di codice potete trascrivere file audio in modo accurato e scalare per applicazioni reali.
Se state costruendo un SaaS voce a testo, Whisper è una base solida per:
  • Trascrizione di audio lungo
  • Voce a testo multilingue
  • Trascrizioni con timestamp

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website