Whisper para transcripción de llamadas: voz a texto preciso para llamadas telefónicas

Whisper para transcripción de llamadas: voz a texto preciso para llamadas telefónicas

Eric King

Eric King

Author


La transcripción de llamadas telefónicas es uno de los casos de uso más habituales y valiosos del habla a texto. OpenAI Whisper encaja especialmente bien gracias a su robustez ante el ruido, los acentos y la calidad de audio imperfecta.
Este artículo explica cómo usar Whisper para transcribir llamadas, incluidos formatos de audio, separación de hablantes, optimización de la precisión y patrones de despliegue reales.

¿Por qué Whisper para transcripción de llamadas?

En comparación con los motores ASR tradicionales, Whisper rinde bien en:
  • Audio telefónico de baja calidad (8 kHz)
  • Acentos y hablantes no nativos
  • Ruido de fondo
  • Conversaciones largas (10–120 minutos)
  • Llamadas multilingües y cambio de idioma
Casos de uso típicos:
  • Registros de llamadas de soporte al cliente
  • Análisis de llamadas de ventas
  • Control de calidad y cumplimiento
  • Resúmenes e insights de llamadas
  • Automatización del CRM

Pipeline típica de transcripción de llamadas

Call (PSTN / VoIP)
↓
Call Recording (WAV / MP3)
↓
Preprocessing (resample, channel split)
↓
Whisper Transcription
↓
Speaker Diarization (optional)
↓
Post-processing (punctuation, timestamps, summaries)

Formatos de audio: qué funciona mejor

Ajustes recomendados

ParámetroValor
Frecuencia de muestreo8 kHz o 16 kHz
CanalesMono o estéreo
FormatoWAV (preferido), FLAC
Profundidad de bitsPCM de 16 bits
Whisper remuestrea internamente, pero una entrada limpia mejora la precisión.

Llamadas en mono frente a estéreo

Mono (lo más habitual)

  • Ambos hablantes mezclados en un solo canal
  • Pipeline más sencilla
  • Más difícil separar hablantes
Ideal para:
  • Transcripción sencilla
  • Búsqueda y archivo

Estéreo (mejor práctica)

  • Agente en el canal izquierdo
  • Cliente en el canal derecho
Ventajas:
  • Separación clara de hablantes
  • No hace falta diarización
  • Mayor precisión en pasos posteriores
# Split stereo call into two mono tracks
import torchaudio

audio, sr = torchaudio.load("call.wav")
agent = audio[0]
customer = audio[1]
Luego transcribe cada canal por separado.

Diarización de hablantes con Whisper

Whisper no incluye diarización de forma nativa, pero puedes combinarlo con:
  • Pyannote.audio
  • VAD de WebRTC + clustering
  • Separación por canal (preferida)
Enfoque habitual:
  1. Ejecutar el modelo de diarización
  2. Dividir el audio por segmentos de hablante
  3. Transcribir cada segmento con Whisper
  4. Fusionar resultados con etiquetas de hablante

Mejores modelos Whisper para llamadas

ModeloPrecisiónVelocidadRecomendado
baseMediaRápida❌ Llamadas cortas
smallAltaMedia✅ La mayoría de casos
mediumMuy altaMás lenta✅ Cumplimiento
large-v3ExcelenteLenta✅ Legal / QA
Recomendación: small o medium para centros de llamadas

Llamadas largas (30–120 minutos)

En llamadas largas, evita pasar todo el audio de una sola vez.

Mejor práctica

  • Divide el audio en segmentos de 2–5 minutos
  • Usa solapamientos pequeños (5–10 segundos)
  • Conserva las marcas de tiempo
result = model.transcribe(
  audio_chunk,
  condition_on_previous_text=True
)
Así se mantiene el contexto entre trozos.

Mejorar la precisión en llamadas telefónicas

1. Normalizar el audio

  • Eliminar silencios
  • Normalizar el volumen
  • Aplicar reducción de ruido si hace falta

2. Usar pistas de idioma

model.transcribe(audio, language="en")

3. Activar FP16 en GPU

Inferencia más rápida y estable.

4. Evitar trozos demasiado pequeños

Los fragmentos muy cortos reducen contexto y precisión.

Transcripción de llamadas en tiempo real frente a por lotes

ModoCaso de uso
Tiempo realMonitorización en vivo, alertas
Casi en tiempo realPaneles de QA
Por lotesAnalítica, archivo
La mayoría de los centros de llamadas usan casi en tiempo real o por lotes por estabilidad y coste.

Escalar Whisper en centros de llamadas

Escala pequeña (≤ 100 llamadas/día)

  • Un servidor con GPU
  • Whisper small

Escala media (1k–10k llamadas/día)

  • Pool de GPUs
  • Cola de trabajos asíncrona (RabbitMQ / Kafka)
  • Procesamiento por trozos

Escala grande (empresa)

  • Varios nodos GPU
  • Servicio de preprocesamiento de audio
  • Pipelines de transcripción y resumen

Postprocesamiento y extracción de valor

Tras la transcripción, los pasos habituales incluyen:
  • Puntuación de frases
  • Etiquetado de hablantes
  • Extracción de palabras clave
  • Análisis de sentimiento
  • Resúmenes de llamadas (LLMs)
  • Integración con el CRM

Whisper frente a APIs en la nube para llamadas

AspectoWhisperAPIs en la nube
CosteBajo (autohospedado)Alto
Privacidad de datosControl totalDepende del proveedor
PrecisiónMuy altaAlta
PersonalizaciónTotalLimitada
Whisper encaja en equipos que necesitan privacidad, control de costes y personalización.

Conclusión

Whisper es una opción potente para transcribir llamadas, sobre todo para:
  • Soporte al cliente
  • Ventas y control de calidad
  • Sectores con mucho cumplimiento normativo
Con un buen manejo del audio, troceado y diarización opcional, Whisper puede ofrecer transcripción de llamadas a nivel de producción a escala.

Pruébalo gratis ahora

Prueba ahora nuestro servicio de voz y audio/vídeo con IA. Disfruta de transcripción de voz a texto de alta precisión, traducción multilingüe y diarización inteligente de hablantes, además de generación automática de subtítulos de vídeo, edición inteligente de contenido audiovisual y análisis sincronizado de audio e imagen. Cubre por completo casos como actas de reuniones, creación de vídeos cortos y producción de pódcasts. ¡Empieza tu prueba gratuita hoy mismo!

Sonido a Texto OnlineSonido a Texto GratisConvertidor de Sonido a TextoSonido a Texto MP3Sonido a Texto WAVSonido a Texto con Marcas de TiempoVoz a texto para reunionesSound to Text Multi LanguageSonido a Texto SubtítulosConvertir WAV a textoVoz a TextoVoz a Texto en LíneaVoz a textoConvertir MP3 a textoConvertir grabación de voz a textoEscritura por Voz OnlineVoz a Texto con Marcas de TiempoVoz a Texto en Tiempo RealVoz a Texto para Audio LargoVoz a Texto para VideoVoz a Texto para YouTubeVoz a Texto para Edición de VideoVoz a Texto para SubtítulosVoz a Texto para PodcastsVoz a Texto para EntrevistasAudio de Entrevista a TextoVoz a Texto para GrabacionesVoz a Texto para ReunionesVoz a Texto para ConferenciasVoz a Texto para NotasVoz a Texto MultiidiomaVoz a Texto PrecisaVoz a Texto RápidaAlternativa Premiere Pro Voz a TextoAlternativa DaVinci Voz a TextoAlternativa VEED Voz a TextoAlternativa InVideo Voz a TextoAlternativa Otter.ai Voz a TextoAlternativa Descript Voz a TextoAlternativa Trint Voz a TextoAlternativa Rev Voz a TextoAlternativa Sonix Voz a TextoAlternativa Happy Scribe Voz a TextoAlternativa Zoom Voz a TextoAlternativa Google Meet Voz a TextoAlternativa Microsoft Teams Voz a TextoAlternativa Fireflies.ai Voz a TextoAlternativa Fathom Voz a TextoAlternativa FlexClip Voz a TextoAlternativa Kapwing Voz a TextoAlternativa Canva Voz a TextoVoz a Texto para Audio LargoVoz a Texto con IAVoz a Texto GratisVoz a Texto Sin AnunciosVoz a Texto para Audio con RuidoVoz a Texto con TiempoGenerar Subtítulos desde AudioTranscripción de Podcasts OnlineTranscribir Llamadas de ClientesVoz de TikTok a TextoAudio de TikTok a TextoVoz de YouTube a TextoAudio de YouTube a TextoNota de Voz a TextoMensaje de Voz de WhatsApp a TextoMensaje de Voz de Telegram a TextoTranscripción de Llamadas DiscordVoz de Twitch a TextoVoz de Skype a TextoVoz de Messenger a TextoMensaje de Voz de LINE a TextoTranscribir Vlogs a TextoConvertir Audio de Sermón a TextoConvertir Habla en EscrituraTraducir Audio a TextoConvertir Notas de Audio a TextoEscritura por VozEscritura por Voz para ReunionesEscritura por Voz para YouTubeHablar para EscribirEscritura Sin ManosVoz a PalabrasHabla a PalabrasHabla a Texto en LíneaOnline Transcription SoftwareHabla a Texto para ReunionesHabla a Texto RápidoReal Time Speech to TextLive Transcription AppHabla a Texto para TikTokSonido a Texto para TikTokHablar a PalabrasHablar a TextoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio a EscrituraSonido a TextoHerramienta de Escritura por VozHerramienta de Escritura por HablaDictado por VozHerramienta de Transcripción LegalHerramienta de Dictado MédicoTranscripción de Audio JaponésTranscripción de Reuniones en CoreanoHerramienta de Transcripción de ReunionesAudio de Reunión a TextoConvertidor de Conferencias a TextoAudio de Conferencia a TextoTranscripción de Video a TextoGenerador de Subtítulos para TikTokTranscripción de Centro de LlamadasHerramienta de Audio de Reels a TextoTranscribir MP3 a TextoTranscribir archivo WAV a textoCapCut Voz a TextoCapCut Voz a TextoVoice to Text in EnglishAudio a Texto en InglésVoice to Text in SpanishVoice to Text in FrenchAudio a Texto en FrancésVoice to Text in GermanAudio a Texto en AlemánVoice to Text in JapaneseAudio a Texto en JaponésVoice to Text in KoreanAudio a Texto en CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website