Exemplo Whisper em JavaScript: voz para texto com Node.js

Exemplo Whisper em JavaScript: voz para texto com Node.js

Eric King

Eric King

Author


Exemplo Whisper em JavaScript: voz para texto com Node.js

Whisper é um modelo poderoso de voz para texto amplamente usado para voz para texto, transcrição de áudio e reconhecimento de fala em conteúdo longo.
Neste artigo, você aprenderá a usar Whisper com JavaScript (Node.js) para converter arquivos de áudio em texto.
Este guia é adequado para:
  • Desenvolvedores que criam recursos de voz para texto
  • Produtos SaaS que usam transcrição de áudio
  • Qualquer pessoa que busque um exemplo Whisper em JavaScript

O que é o Whisper?

Whisper é um modelo de reconhecimento automático de fala (ASR) que pode:
  • Transcrever fala em texto
  • Detectar o idioma falado automaticamente
  • Lidar com arquivos de áudio longos
  • Funcionar bem com gravações ruidosas
É comumente usado para:
  • Podcasts
  • Reuniões
  • Entrevistas
  • Legendas de vídeo

Pré-requisitos

Antes de começar, certifique-se de ter:
  • Node.js 18+
  • Um arquivo de áudio (mp3, wav, m4a, etc.)
  • Uma chave de API para voz para texto (compatível com Whisper)
Instale as dependências:
npm install openai

Exemplo básico de Whisper em JavaScript

Abaixo está um exemplo mínimo em Node.js que envia um arquivo de áudio ao Whisper e retorna a transcrição.

Estrutura do projeto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Código JavaScript: áudio para texto

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Executar o script

node transcribe.js
Exemplo de saída:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcrever arquivos de áudio longos

Whisper funciona bem com gravações longas, como:
  • Podcasts
  • Aulas
  • Entrevistas
Para arquivos muito grandes, práticas comuns incluem:
  • Dividir o áudio em partes
  • Transcrever de forma assíncrona
  • Mesclar os resultados depois

Obter carimbos de data/hora (opcional)

Alguns sistemas baseados em Whisper suportam carimbos de data/hora no nível de frase ou palavra.
Isso é útil para:
  • Legendas (SRT / VTT)
  • Edição de vídeo
  • Transcrições pesquisáveis
Formato de saída de exemplo:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formatos de áudio suportados

Whisper suporta os formatos mais comuns:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Para melhor precisão:
  • Use áudio claro
  • Evite muito ruído de fundo
  • Prefira WAV ou MP3 em alta taxa de bits

Casos de uso comuns

  • Voz para texto em reuniões
  • Transcrição de podcasts
  • Legendas de vídeos no YouTube
  • Transcrição de entrevistas
  • Transcrição acadêmica e de pesquisa

Whisper versus outras ferramentas de voz para texto

RecursoWhisper
Suporte a áudio longo
Multilíngue
Modelo de código aberto
Suporte a JavaScript
Suporte a carimbos
Whisper é especialmente forte em voz para texto em conteúdo longo em comparação com muitas soluções apenas em tempo real.

Conclusão

Este exemplo de Whisper em JavaScript mostra como é fácil criar um recurso de voz para texto com Node.js.
Com poucas linhas de código, você pode transcrever arquivos de áudio com precisão e escalar para aplicações reais.
Se você está criando um SaaS de voz para texto, o Whisper é uma base sólida para:
  • Transcrição de áudio longo
  • Voz para texto multilíngue
  • Transcrições com carimbos de data/hora

Experimente grátis agora

Experimente agora o nosso serviço de voz, áudio e vídeo com IA. Você terá não só transcrição de voz para texto de alta precisão, tradução multilíngue e diarização inteligente de falantes, como também geração automática de legendas para vídeos, edição inteligente de conteúdo audiovisual e análise sincronizada de áudio e imagem. Cobrimos cenários como atas de reunião, criação de vídeos curtos e produção de podcasts — comece hoje mesmo o seu teste gratuito!

Som para Texto OnlineSom para Texto GratuitoConversor de Som para TextoSom para Texto MP3Som para Texto WAVSom para Texto com Carimbos de TempoSom em texto para reuniõesSound to Text Multi LanguageSom para Texto LegendasConverter WAV para textoVoz para TextoVoz para Texto OnlineFala para TextoConverter MP3 para TextoConverter gravação de voz em textoDigitação por Voz OnlineVoz para Texto com Carimbos de TempoVoz para Texto em Tempo RealVoz para Texto para Áudio LongoVoz para Texto para VídeoVoz para Texto para YouTubeVoz para Texto para Edição de VídeoVoz para Texto para LegendasVoz para Texto para PodcastsVoz para Texto para EntrevistasÁudio de Entrevista para TextoVoz para Texto para GravaçõesVoz para Texto para ReuniõesVoz para Texto para AulasVoz para Texto para NotasVoz para Texto MultilíngueVoz para Texto PrecisoVoz para Texto RápidoAlternativa Premiere Pro Voz para TextoAlternativa DaVinci Voz para TextoAlternativa VEED Voz para TextoAlternativa InVideo Voz para TextoAlternativa Otter.ai Voz para TextoAlternativa Descript Voz para TextoAlternativa Trint Voz para TextoAlternativa Rev Voz para TextoAlternativa Sonix Voz para TextoAlternativa Happy Scribe Voz para TextoAlternativa Zoom Voz para TextoAlternativa Google Meet Voz para TextoAlternativa Microsoft Teams Voz para TextoAlternativa Fireflies.ai Voz para TextoAlternativa Fathom Voz para TextoAlternativa FlexClip Voz para TextoAlternativa Kapwing Voz para TextoAlternativa Canva Voz para TextoVoz para Texto para Áudio LongoVoz IA para TextoVoz para Texto GrátisVoz para Texto sem AnúnciosVoz para Texto para Áudio RuidosoVoz para Texto com TempoGerar Legendas de ÁudioTranscrição de Podcast OnlineTranscrever Chamadas de ClientesVoz do TikTok para TextoÁudio do TikTok para TextoVoz do YouTube para TextoÁudio do YouTube para TextoNota de Voz para TextoMensagem de Voz do WhatsApp para TextoMensagem de Voz do Telegram para TextoTranscrição de Chamada DiscordVoz do Twitch para TextoVoz do Skype para TextoVoz do Messenger para TextoMensagem de Voz do LINE para TextoTranscrever Vlogs para TextoConverter Áudio de Sermão em TextoConverter Fala em EscritaTraduzir Áudio para TextoConverter Notas de Áudio em TextoDigitação por VozDigitação por Voz para ReuniõesDigitação por Voz para YouTubeFalar para DigitarDigitação Sem MãosVoz para PalavrasFala para PalavrasFala para Texto OnlineOnline Transcription SoftwareFala para Texto para ReuniõesFala para Texto RápidoReal Time Speech to TextLive Transcription AppFala para Texto para TikTokSom para Texto para TikTokFalando para PalavrasFalar para TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsÁudio para DigitaçãoSom para TextoFerramenta de Escrita por VozFerramenta de Escrita por FalaDitado por VozFerramenta de Transcrição LegalFerramenta de Ditado MédicoTranscrição de Áudio JaponêsTranscrição de Reuniões em CoreanoFerramenta de Transcrição de ReuniõesÁudio de Reunião para TextoConversor de Aulas para TextoÁudio de Aula para TextoTranscrição de Vídeo para TextoGerador de Legendas para TikTokTranscrição de Call CenterFerramenta de Áudio Reels para TextoTranscrever MP3 para TextoTranscrever arquivo WAV para textoCapCut Voz para TextoCapCut Voz para TextoVoice to Text in EnglishÁudio para Texto em InglêsVoice to Text in SpanishVoice to Text in FrenchÁudio para Texto em FrancêsVoice to Text in GermanÁudio para Texto em AlemãoVoice to Text in JapaneseÁudio para Texto em JaponêsVoice to Text in KoreanÁudio para Texto em CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website