
Ejemplo de Whisper en JavaScript: voz a texto con Node.js
Eric King
Author
Ejemplo de Whisper en JavaScript: voz a texto con Node.js
Whisper es un potente modelo de voz a texto ampliamente usado para voz a texto, transcripción de audio y reconocimiento de voz en formato largo.
En este artículo aprenderá a usar Whisper con JavaScript (Node.js) para convertir archivos de audio en texto.
En este artículo aprenderá a usar Whisper con JavaScript (Node.js) para convertir archivos de audio en texto.
Esta guía es adecuada para:
- Desarrolladores que crean funciones de voz a texto
- Productos SaaS que usan transcripción de audio
- Cualquiera que busque un ejemplo de Whisper en JavaScript
¿Qué es Whisper?
Whisper es un modelo de reconocimiento automático del habla (ASR) que puede:
- Transcribir el habla a texto
- Detectar el idioma hablado automáticamente
- Manejar archivos de audio largos
- Funcionar bien con grabaciones ruidosas
Se usa habitualmente para:
- Podcasts
- Reuniones
- Entrevistas
- Subtítulos de vídeo
Requisitos previos
Antes de empezar, asegúrese de tener:
- Node.js 18+
- Un archivo de audio (
mp3,wav,m4a, etc.) - Una clave API para voz a texto (compatible con Whisper)
Instale las dependencias:
npm install openai
Ejemplo básico de Whisper en JavaScript
A continuación hay un ejemplo mínimo de Node.js que envía un archivo de audio a Whisper y devuelve la transcripción.
Estructura del proyecto
project/
├─ audio/
│ └─ sample.mp3
├─ transcribe.js
└─ package.json
Código JavaScript: audio a texto
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY
});
async function transcribeAudio() {
const response = await openai.audio.transcriptions.create({
file: fs.createReadStream("./audio/sample.mp3"),
model: "whisper-1"
});
console.log("Transcription result:");
console.log(response.text);
}
transcribeAudio();
Ejecutar el script
node transcribe.js
Ejemplo de salida:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.
Transcribir archivos de audio largos
Whisper funciona bien con grabaciones largas, como:
- Podcasts
- Clases
- Entrevistas
Para archivos muy grandes, las buenas prácticas habituales incluyen:
- Dividir el audio en fragmentos
- Transcribir de forma asíncrona
- Fusionar los resultados después
Obtener marcas de tiempo (opcional)
Algunos sistemas basados en Whisper admiten marcas de tiempo a nivel de frase o palabra.
Esto es útil para:
Esto es útil para:
- Subtítulos (SRT / VTT)
- Edición de vídeo
- Transcripciones buscables
Formato de salida de ejemplo:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting
Formatos de audio admitidos
Whisper admite los formatos más habituales:
- MP3
- WAV
- M4A
- MP4
- WEBM
Para la mayor precisión:
- Use audio claro
- Evite mucho ruido de fondo
- Prefiera WAV o MP3 de alto bitrate
Casos de uso habituales
- Voz a texto para reuniones
- Transcripción de podcasts
- Subtítulos de vídeos de YouTube
- Transcripción de entrevistas
- Transcripción académica e investigación
Whisper frente a otras herramientas de voz a texto
| Característica | Whisper |
|---|---|
| Soporte de audio largo | ✅ |
| Multilingüe | ✅ |
| Modelo de código abierto | ✅ |
| Soporte de JavaScript | ✅ |
| Soporte de marcas de tiempo | ✅ |
Whisper destaca especialmente en voz a texto de formato largo frente a muchas soluciones solo en tiempo real.
Conclusión
Este ejemplo de Whisper en JavaScript muestra lo fácil que es crear una función de voz a texto con Node.js.
Con pocas líneas de código puede transcribir archivos de audio con precisión y escalarlo para aplicaciones reales.
Con pocas líneas de código puede transcribir archivos de audio con precisión y escalarlo para aplicaciones reales.
Si está creando un SaaS de voz a texto, Whisper es una base sólida para:
- Transcripción de audio largo
- Voz a texto multilingüe
- Transcripciones con marcas de tiempo
