Exemplo Whisper em JavaScript: voz para texto com Node.js

Whisper é um modelo poderoso de voz para texto amplamente usado para voz para texto, transcrição de áudio e reconhecimento de fala em conteúdo longo.
Neste artigo, você aprenderá a usar Whisper com JavaScript (Node.js) para converter arquivos de áudio em texto.

Este guia é adequado para:

Desenvolvedores que criam recursos de voz para texto
Produtos SaaS que usam transcrição de áudio
Qualquer pessoa que busque um exemplo Whisper em JavaScript

O que é o Whisper?

Whisper é um modelo de reconhecimento automático de fala (ASR) que pode:

Transcrever fala em texto
Detectar o idioma falado automaticamente
Lidar com arquivos de áudio longos
Funcionar bem com gravações ruidosas

É comumente usado para:

Podcasts
Reuniões
Entrevistas
Legendas de vídeo

Pré-requisitos

Antes de começar, certifique-se de ter:

Node.js 18+
Um arquivo de áudio (mp3, wav, m4a, etc.)
Uma chave de API para voz para texto (compatível com Whisper)

Instale as dependências:

npm install openai

Exemplo básico de Whisper em JavaScript

Abaixo está um exemplo mínimo em Node.js que envia um arquivo de áudio ao Whisper e retorna a transcrição.

Estrutura do projeto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Código JavaScript: áudio para texto

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Executar o script

node transcribe.js

Exemplo de saída:

Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcrever arquivos de áudio longos

Whisper funciona bem com gravações longas, como:

Podcasts
Aulas
Entrevistas

Para arquivos muito grandes, práticas comuns incluem:

Dividir o áudio em partes
Transcrever de forma assíncrona
Mesclar os resultados depois

Obter carimbos de data/hora (opcional)

Alguns sistemas baseados em Whisper suportam carimbos de data/hora no nível de frase ou palavra.
Isso é útil para:

Legendas (SRT / VTT)
Edição de vídeo
Transcrições pesquisáveis

Formato de saída de exemplo:

[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formatos de áudio suportados

Whisper suporta os formatos mais comuns:

MP3
WAV
M4A
MP4
WEBM

Para melhor precisão:

Use áudio claro
Evite muito ruído de fundo
Prefira WAV ou MP3 em alta taxa de bits

Casos de uso comuns

Voz para texto em reuniões
Transcrição de podcasts
Legendas de vídeos no YouTube
Transcrição de entrevistas
Transcrição acadêmica e de pesquisa

Whisper versus outras ferramentas de voz para texto

Recurso	Whisper
Suporte a áudio longo	✅
Multilíngue	✅
Modelo de código aberto	✅
Suporte a JavaScript	✅
Suporte a carimbos	✅

Whisper é especialmente forte em voz para texto em conteúdo longo em comparação com muitas soluções apenas em tempo real.

Conclusão

Este exemplo de Whisper em JavaScript mostra como é fácil criar um recurso de voz para texto com Node.js.
Com poucas linhas de código, você pode transcrever arquivos de áudio com precisão e escalar para aplicações reais.

Se você está criando um SaaS de voz para texto, o Whisper é uma base sólida para:

Transcrição de áudio longo
Voz para texto multilíngue
Transcrições com carimbos de data/hora

Exemplo Whisper em JavaScript: voz para texto com Node.js

Exemplo Whisper em JavaScript: voz para texto com Node.js

O que é o Whisper?

Pré-requisitos

Exemplo básico de Whisper em JavaScript

Estrutura do projeto

Código JavaScript: áudio para texto

Executar o script

Transcrever arquivos de áudio longos

Obter carimbos de data/hora (opcional)

Formatos de áudio suportados

Casos de uso comuns

Whisper versus outras ferramentas de voz para texto

Conclusão

Posts relacionados

O que é conversão de fala em texto e como usar: guia completo para iniciantes

Como Converter Áudio em Texto Online: Métodos Gratuitos e Precisos (Guia 2026)

Como Remover Ruído de Fundo para STT: Guia Completo de Redução de Ruído para Speech-to-Text

Experimente grátis agora