Ejemplo de Whisper en JavaScript: voz a texto con Node.js

Ejemplo de Whisper en JavaScript: voz a texto con Node.js

Eric King

Eric King

Author


Ejemplo de Whisper en JavaScript: voz a texto con Node.js

Whisper es un potente modelo de voz a texto ampliamente usado para voz a texto, transcripción de audio y reconocimiento de voz en formato largo.
En este artículo aprenderá a usar Whisper con JavaScript (Node.js) para convertir archivos de audio en texto.
Esta guía es adecuada para:
  • Desarrolladores que crean funciones de voz a texto
  • Productos SaaS que usan transcripción de audio
  • Cualquiera que busque un ejemplo de Whisper en JavaScript

¿Qué es Whisper?

Whisper es un modelo de reconocimiento automático del habla (ASR) que puede:
  • Transcribir el habla a texto
  • Detectar el idioma hablado automáticamente
  • Manejar archivos de audio largos
  • Funcionar bien con grabaciones ruidosas
Se usa habitualmente para:
  • Podcasts
  • Reuniones
  • Entrevistas
  • Subtítulos de vídeo

Requisitos previos

Antes de empezar, asegúrese de tener:
  • Node.js 18+
  • Un archivo de audio (mp3, wav, m4a, etc.)
  • Una clave API para voz a texto (compatible con Whisper)
Instale las dependencias:
npm install openai

Ejemplo básico de Whisper en JavaScript

A continuación hay un ejemplo mínimo de Node.js que envía un archivo de audio a Whisper y devuelve la transcripción.

Estructura del proyecto

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Código JavaScript: audio a texto

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Ejecutar el script

node transcribe.js
Ejemplo de salida:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Transcribir archivos de audio largos

Whisper funciona bien con grabaciones largas, como:
  • Podcasts
  • Clases
  • Entrevistas
Para archivos muy grandes, las buenas prácticas habituales incluyen:
  • Dividir el audio en fragmentos
  • Transcribir de forma asíncrona
  • Fusionar los resultados después

Obtener marcas de tiempo (opcional)

Algunos sistemas basados en Whisper admiten marcas de tiempo a nivel de frase o palabra.
Esto es útil para:
  • Subtítulos (SRT / VTT)
  • Edición de vídeo
  • Transcripciones buscables
Formato de salida de ejemplo:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Formatos de audio admitidos

Whisper admite los formatos más habituales:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Para la mayor precisión:
  • Use audio claro
  • Evite mucho ruido de fondo
  • Prefiera WAV o MP3 de alto bitrate

Casos de uso habituales

  • Voz a texto para reuniones
  • Transcripción de podcasts
  • Subtítulos de vídeos de YouTube
  • Transcripción de entrevistas
  • Transcripción académica e investigación

Whisper frente a otras herramientas de voz a texto

CaracterísticaWhisper
Soporte de audio largo
Multilingüe
Modelo de código abierto
Soporte de JavaScript
Soporte de marcas de tiempo
Whisper destaca especialmente en voz a texto de formato largo frente a muchas soluciones solo en tiempo real.

Conclusión

Este ejemplo de Whisper en JavaScript muestra lo fácil que es crear una función de voz a texto con Node.js.
Con pocas líneas de código puede transcribir archivos de audio con precisión y escalarlo para aplicaciones reales.
Si está creando un SaaS de voz a texto, Whisper es una base sólida para:
  • Transcripción de audio largo
  • Voz a texto multilingüe
  • Transcripciones con marcas de tiempo

Pruébalo gratis ahora

Prueba ahora nuestro servicio de voz y audio/vídeo con IA. Disfruta de transcripción de voz a texto de alta precisión, traducción multilingüe y diarización inteligente de hablantes, además de generación automática de subtítulos de vídeo, edición inteligente de contenido audiovisual y análisis sincronizado de audio e imagen. Cubre por completo casos como actas de reuniones, creación de vídeos cortos y producción de pódcasts. ¡Empieza tu prueba gratuita hoy mismo!

Sonido a Texto OnlineSonido a Texto GratisConvertidor de Sonido a TextoSonido a Texto MP3Sonido a Texto WAVSonido a Texto con Marcas de TiempoVoz a texto para reunionesSound to Text Multi LanguageSonido a Texto SubtítulosConvertir WAV a textoVoz a TextoVoz a Texto en LíneaVoz a textoConvertir MP3 a textoConvertir grabación de voz a textoEscritura por Voz OnlineVoz a Texto con Marcas de TiempoVoz a Texto en Tiempo RealVoz a Texto para Audio LargoVoz a Texto para VideoVoz a Texto para YouTubeVoz a Texto para Edición de VideoVoz a Texto para SubtítulosVoz a Texto para PodcastsVoz a Texto para EntrevistasAudio de Entrevista a TextoVoz a Texto para GrabacionesVoz a Texto para ReunionesVoz a Texto para ConferenciasVoz a Texto para NotasVoz a Texto MultiidiomaVoz a Texto PrecisaVoz a Texto RápidaAlternativa Premiere Pro Voz a TextoAlternativa DaVinci Voz a TextoAlternativa VEED Voz a TextoAlternativa InVideo Voz a TextoAlternativa Otter.ai Voz a TextoAlternativa Descript Voz a TextoAlternativa Trint Voz a TextoAlternativa Rev Voz a TextoAlternativa Sonix Voz a TextoAlternativa Happy Scribe Voz a TextoAlternativa Zoom Voz a TextoAlternativa Google Meet Voz a TextoAlternativa Microsoft Teams Voz a TextoAlternativa Fireflies.ai Voz a TextoAlternativa Fathom Voz a TextoAlternativa FlexClip Voz a TextoAlternativa Kapwing Voz a TextoAlternativa Canva Voz a TextoVoz a Texto para Audio LargoVoz a Texto con IAVoz a Texto GratisVoz a Texto Sin AnunciosVoz a Texto para Audio con RuidoVoz a Texto con TiempoGenerar Subtítulos desde AudioTranscripción de Podcasts OnlineTranscribir Llamadas de ClientesVoz de TikTok a TextoAudio de TikTok a TextoVoz de YouTube a TextoAudio de YouTube a TextoNota de Voz a TextoMensaje de Voz de WhatsApp a TextoMensaje de Voz de Telegram a TextoTranscripción de Llamadas DiscordVoz de Twitch a TextoVoz de Skype a TextoVoz de Messenger a TextoMensaje de Voz de LINE a TextoTranscribir Vlogs a TextoConvertir Audio de Sermón a TextoConvertir Habla en EscrituraTraducir Audio a TextoConvertir Notas de Audio a TextoEscritura por VozEscritura por Voz para ReunionesEscritura por Voz para YouTubeHablar para EscribirEscritura Sin ManosVoz a PalabrasHabla a PalabrasHabla a Texto en LíneaOnline Transcription SoftwareHabla a Texto para ReunionesHabla a Texto RápidoReal Time Speech to TextLive Transcription AppHabla a Texto para TikTokSonido a Texto para TikTokHablar a PalabrasHablar a TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio a EscrituraSonido a TextoHerramienta de Escritura por VozHerramienta de Escritura por HablaDictado por VozHerramienta de Transcripción LegalHerramienta de Dictado MédicoTranscripción de Audio JaponésTranscripción de Reuniones en CoreanoHerramienta de Transcripción de ReunionesAudio de Reunión a TextoConvertidor de Conferencias a TextoAudio de Conferencia a TextoTranscripción de Video a TextoGenerador de Subtítulos para TikTokTranscripción de Centro de LlamadasHerramienta de Audio de Reels a TextoTranscribir MP3 a TextoTranscribir archivo WAV a textoCapCut Voz a TextoCapCut Voz a TextoVoice to Text in EnglishAudio a Texto en InglésVoice to Text in SpanishVoice to Text in FrenchAudio a Texto en FrancésVoice to Text in GermanAudio a Texto en AlemánVoice to Text in JapaneseAudio a Texto en JaponésVoice to Text in KoreanAudio a Texto en CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website