
Exemplo Whisper em JavaScript: voz para texto com Node.js
Eric King
Author
Exemplo Whisper em JavaScript: voz para texto com Node.js
Whisper é um modelo poderoso de voz para texto amplamente usado para voz para texto, transcrição de áudio e reconhecimento de fala em conteúdo longo.
Neste artigo, você aprenderá a usar Whisper com JavaScript (Node.js) para converter arquivos de áudio em texto.
Neste artigo, você aprenderá a usar Whisper com JavaScript (Node.js) para converter arquivos de áudio em texto.
Este guia é adequado para:
- Desenvolvedores que criam recursos de voz para texto
- Produtos SaaS que usam transcrição de áudio
- Qualquer pessoa que busque um exemplo Whisper em JavaScript
O que é o Whisper?
Whisper é um modelo de reconhecimento automático de fala (ASR) que pode:
- Transcrever fala em texto
- Detectar o idioma falado automaticamente
- Lidar com arquivos de áudio longos
- Funcionar bem com gravações ruidosas
É comumente usado para:
- Podcasts
- Reuniões
- Entrevistas
- Legendas de vídeo
Pré-requisitos
Antes de começar, certifique-se de ter:
- Node.js 18+
- Um arquivo de áudio (
mp3,wav,m4a, etc.) - Uma chave de API para voz para texto (compatível com Whisper)
Instale as dependências:
npm install openai
Exemplo básico de Whisper em JavaScript
Abaixo está um exemplo mínimo em Node.js que envia um arquivo de áudio ao Whisper e retorna a transcrição.
Estrutura do projeto
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
Código JavaScript: áudio para texto
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Executar o script
node transcribe.js
Exemplo de saída:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Transcrever arquivos de áudio longos
Whisper funciona bem com gravações longas, como:
- Podcasts
- Aulas
- Entrevistas
Para arquivos muito grandes, práticas comuns incluem:
- Dividir o áudio em partes
- Transcrever de forma assíncrona
- Mesclar os resultados depois
Obter carimbos de data/hora (opcional)
Alguns sistemas baseados em Whisper suportam carimbos de data/hora no nível de frase ou palavra.
Isso é útil para:
Isso é útil para:
- Legendas (SRT / VTT)
- Edição de vídeo
- Transcrições pesquisáveis
Formato de saída de exemplo:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Formatos de áudio suportados
Whisper suporta os formatos mais comuns:
- MP3
- WAV
- M4A
- MP4
- WEBM
Para melhor precisão:
- Use áudio claro
- Evite muito ruído de fundo
- Prefira WAV ou MP3 em alta taxa de bits
Casos de uso comuns
- Voz para texto em reuniões
- Transcrição de podcasts
- Legendas de vídeos no YouTube
- Transcrição de entrevistas
- Transcrição acadêmica e de pesquisa
Whisper versus outras ferramentas de voz para texto
| Recurso | Whisper |
|---|---|
| Suporte a áudio longo | ✅ |
| Multilíngue | ✅ |
| Modelo de código aberto | ✅ |
| Suporte a JavaScript | ✅ |
| Suporte a carimbos | ✅ |
Whisper é especialmente forte em voz para texto em conteúdo longo em comparação com muitas soluções apenas em tempo real.
Conclusão
Este exemplo de Whisper em JavaScript mostra como é fácil criar um recurso de voz para texto com Node.js.
Com poucas linhas de código, você pode transcrever arquivos de áudio com precisão e escalar para aplicações reais.
Com poucas linhas de código, você pode transcrever arquivos de áudio com precisão e escalar para aplicações reais.
Se você está criando um SaaS de voz para texto, o Whisper é uma base sólida para:
- Transcrição de áudio longo
- Voz para texto multilíngue
- Transcrições com carimbos de data/hora
