Ejemplo de Whisper en JavaScript: voz a texto con Node.js

Whisper es un potente modelo de voz a texto ampliamente usado para voz a texto, transcripción de audio y reconocimiento de voz en formato largo.
En este artículo aprenderá a usar Whisper con JavaScript (Node.js) para convertir archivos de audio en texto.

Esta guía es adecuada para:

Desarrolladores que crean funciones de voz a texto
Productos SaaS que usan transcripción de audio
Cualquiera que busque un ejemplo de Whisper en JavaScript

¿Qué es Whisper?

Whisper es un modelo de reconocimiento automático del habla (ASR) que puede:

Transcribir el habla a texto
Detectar el idioma hablado automáticamente
Manejar archivos de audio largos
Funcionar bien con grabaciones ruidosas

Se usa habitualmente para:

Podcasts
Reuniones
Entrevistas
Subtítulos de vídeo

Requisitos previos

Antes de empezar, asegúrese de tener:

Node.js 18+
Un archivo de audio (mp3, wav, m4a, etc.)
Una clave API para voz a texto (compatible con Whisper)

Instale las dependencias:

npm install openai

Ejemplo básico de Whisper en JavaScript

A continuación hay un ejemplo mínimo de Node.js que envía un archivo de audio a Whisper y devuelve la transcripción.

Estructura del proyecto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Código JavaScript: audio a texto

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Ejecutar el script

node transcribe.js

Ejemplo de salida:

Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcribir archivos de audio largos

Whisper funciona bien con grabaciones largas, como:

Podcasts
Clases
Entrevistas

Para archivos muy grandes, las buenas prácticas habituales incluyen:

Dividir el audio en fragmentos
Transcribir de forma asíncrona
Fusionar los resultados después

Obtener marcas de tiempo (opcional)

Algunos sistemas basados en Whisper admiten marcas de tiempo a nivel de frase o palabra.
Esto es útil para:

Subtítulos (SRT / VTT)
Edición de vídeo
Transcripciones buscables

Formato de salida de ejemplo:

[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formatos de audio admitidos

Whisper admite los formatos más habituales:

MP3
WAV
M4A
MP4
WEBM

Para la mayor precisión:

Use audio claro
Evite mucho ruido de fondo
Prefiera WAV o MP3 de alto bitrate

Casos de uso habituales

Voz a texto para reuniones
Transcripción de podcasts
Subtítulos de vídeos de YouTube
Transcripción de entrevistas
Transcripción académica e investigación

Whisper frente a otras herramientas de voz a texto

Característica	Whisper
Soporte de audio largo	✅
Multilingüe	✅
Modelo de código abierto	✅
Soporte de JavaScript	✅
Soporte de marcas de tiempo	✅

Whisper destaca especialmente en voz a texto de formato largo frente a muchas soluciones solo en tiempo real.

Conclusión

Este ejemplo de Whisper en JavaScript muestra lo fácil que es crear una función de voz a texto con Node.js.
Con pocas líneas de código puede transcribir archivos de audio con precisión y escalarlo para aplicaciones reales.

Si está creando un SaaS de voz a texto, Whisper es una base sólida para:

Transcripción de audio largo
Voz a texto multilingüe
Transcripciones con marcas de tiempo

Ejemplo de Whisper en JavaScript: voz a texto con Node.js

Ejemplo de Whisper en JavaScript: voz a texto con Node.js

¿Qué es Whisper?

Requisitos previos

Ejemplo básico de Whisper en JavaScript

Estructura del proyecto

Código JavaScript: audio a texto

Ejecutar el script

Transcribir archivos de audio largos

Obtener marcas de tiempo (opcional)

Formatos de audio admitidos

Casos de uso habituales

Whisper frente a otras herramientas de voz a texto

Conclusión

Publicaciones relacionadas

Qué es el dictado por voz y cómo usarlo: guía completa para principiantes

Cómo convertir audio a texto en línea: métodos gratis y precisos (guía 2026)

Cómo eliminar el ruido de fondo para STT: guía completa de reducción de ruido para speech-to-text

Pruébalo gratis ahora