Requisiti audio di Whisper: guida completa ai formati supportati e alle specifiche

Requisiti audio di Whisper: guida completa ai formati supportati e alle specifiche

Eric King

Eric King

Author


Comprendere i requisiti audio di Whisper è fondamentale per ottenere la migliore accuratezza di trascrizione. Whisper è flessibile e gestisce molti formati; rispettare specifiche ottimali garantisce le massime prestazioni.
Questa guida copre tutti i requisiti audio, i formati supportati, le specifiche tecniche e le best practice per preparare file audio per la trascrizione con Whisper.

Formati audio supportati

Whisper supporta un’ampia gamma di formati audio e video tramite FFmpeg. Ecco l’elenco completo:

Formati audio

FormatoEstensioneNote
WAV.wav✅ Preferito, lossless
MP3.mp3✅ Molto comune
FLAC.flac✅ Lossless, buona compressione
M4A.m4a✅ Formato Apple, codec AAC
AAC.aac✅ Compressione di alta qualità
OGG.ogg✅ Formato open source
OPUS.opus✅ Bassa latenza, adatto al web
WMA.wma⚠️ Meno comune
AMR.amr⚠️ Bassa qualità, registrazioni telefoniche

Formati video (estrazione audio)

FormatoEstensioneNote
MP4.mp4✅ Formato video più comune
AVI.avi✅ Formato datato, ancora supportato
MKV.mkv✅ Contenitore
MOV.mov✅ QuickTime
WebM.webm✅ Video web
FLV.flv⚠️ Flash legacy
Importante: Whisper estrae automaticamente l’audio dai file video; puoi caricare direttamente i video.

Requisiti di frequenza di campionamento

Frequenza ottimale: 16 kHz

Whisper ricampiona internamente tutto l’audio a 16 kHz mono prima dell’elaborazione. È la frequenza ottimale per il riconoscimento vocale.

Frequenze supportate

Whisper accetta qualsiasi frequenza; ecco cosa sapere:
Frequenza in ingressoElaborazione WhisperRaccomandazione
8 kHzRicampionata a 16 kHz✅ Chiamate, accettabile
16 kHzUsata direttamenteOttimale, nessun ricampionamento
22,05 kHzRicampionata a 16 kHz✅ Buona qualità
44,1 kHzRicampionata a 16 kHz✅ Qualità CD, ok
48 kHzRicampionata a 16 kHz✅ Audio professionale, ok
96 kHzRicampionata a 16 kHz⚠️ Inutile, file più grandi
Punto chiave: frequenze più elevate non migliorano l’accuratezza di Whisper. Il modello è stato addestrato su audio a 16 kHz; fornire 16 kHz in ingresso evita ricampionamenti inutili e file più pesanti.

Best practice

# Convert audio to 16 kHz before processing (optional optimization)
import ffmpeg

def convert_to_16khz(input_file, output_file):
    stream = ffmpeg.input(input_file)
    stream = ffmpeg.output(
        stream,
        output_file,
        acodec='pcm_s16le',
        ac=1,  # Mono
        ar=16000  # 16 kHz
    )
    ffmpeg.run(stream, overwrite_output=True)

Requisiti di profondità di bit

Profondità supportate

ProfonditàStatoNote
8 bit✅ SupportataBassa qualità, sconsigliata
16 bitConsigliataStandard, sufficiente
24 bit✅ SupportataProfessionale, file più grandi
32 bit float✅ SupportataQualità studio, spesso eccessiva
Raccomandazione: PCM a 16 bit è lo standard e offre ottima qualità per il riconoscimento vocale. Profondità maggiori non migliorano l’accuratezza della trascrizione.

Configurazione canali: mono vs stereo

Mono (consigliato)

Whisper elabora l’audio internamente in mono, quindi l’ingresso mono è ottimale.
Vantaggi:
  • File più piccoli
  • Elaborazione più veloce
  • Nessun mixaggio canali necessario
  • Ottimo per un solo parlante
Usa il mono per:
  • Registrazioni con un parlante
  • Chiamate telefoniche
  • Podcast con un host
  • La maggior parte delle attività di trascrizione

Stereo (supportato)

I file stereo vengono convertiti automaticamente in mono (media o selezione di un canale).
Quando lo stereo è utile:
  • Parlanti separati su canali diversi (raro)
  • La registrazione originale è stereo (conversione automatica)
Best practice: converti stereo in mono prima dell’elaborazione se puoi:
import ffmpeg

# Convert stereo to mono
stream = ffmpeg.input('stereo_audio.wav')
stream = ffmpeg.output(
    stream,
    'mono_audio.wav',
    ac=1  # Mono channel
)
ffmpeg.run(stream, overwrite_output=True)

Limiti di dimensione file

Limiti pratici

Whisper non ha un limite rigido di dimensione, ma valgono considerazioni pratiche:
DimensioneTempo di elaborazioneRaccomandazione
< 10 MBSecondi✅ Ideale
10–100 MBMinuti✅ Buono
100–500 MB10–30 minuti⚠️ Valuta il chunking
> 500 MB30+ minuti⚠️ Chunking obbligatorio

Memoria

I file grandi richiedono più RAM/VRAM:
  • Modello base: ~1–2 GB VRAM
  • Modello small: ~2–3 GB VRAM
  • Modello medium: ~5–6 GB VRAM
  • Modello large: ~10–12 GB VRAM
Best practice: per file > 100 MB, dividi in segmenti (vedi sotto).

Limiti di durata

Durata consigliata

DurataStatoNote
< 30 minuti✅ OttimaleElaborazione diretta
30–60 minuti✅ BuonoPuò servire il chunking
1–2 ore⚠️ Chunking consigliatoSpesso più accurato a segmenti
> 2 ore⚠️ Chunking obbligatorioNecessario per stabilità

Perché segmentare audio lunghi?

  1. Limiti di memoria: evita errori di memoria insufficiente
  2. Migliore accuratezza: segmenti più piccoli mantengono meglio il contesto
  3. Elaborazione più veloce: possibile parallelismo
  4. Recupero errori: se un segmento fallisce, altri possono riuscire
Strategia di chunking:
# Split long audio into 30-60 second chunks with 5-10 second overlap
def chunk_audio(audio_path, chunk_length=60, overlap=5):
    # Implementation: split audio into segments
    # Process each chunk separately
    # Merge results with timestamps
    pass

Requisiti di qualità audio

Standard minimi

Per un’accuratezza accettabile, l’audio dovrebbe soddisfare:
FattoreMinimoOttimale
Rapporto segnale/rumore> 10 dB> 20 dB
Bitrate (MP3)≥ 64 kbps≥ 128 kbps
Livello volumeUdibileNormalizzato a −3 dB
Rumore di fondoMinimoNessuno
Eco/riverberoMinimiNessuno

Checklist qualità

Prima di trascrivere, verifica:
  • Parlato chiaro: i parlanti sono comprensibili
  • Poco rumore: lo sfondo non copre la voce
  • Volume costante: nessun salto improvviso
  • Nessun clipping: nessuna distorsione o saturazione
  • Buon microfono: attrezzatura adeguata

Requisiti di codec

Codec consigliati

CodecFormatoQualitàRaccomandazione
PCMWAVLosslessMigliore per accuratezza
FLACFLACLossless✅ Eccellente, compresso
AACM4A, MP4Alta✅ Molto buono
MP3MP3Lossy✅ Buono a ≥128 kbps
OGG VorbisOGGLossy✅ Buona qualità
OPUSOPUSLossy✅ Buono, bassa latenza

Best practice sui codec

Per massima accuratezza:
  • Usa PCM (WAV) o FLAC (lossless)
Uso pratico:
  • Usa AAC o MP3 a ≥128 kbps (ottimi risultati)
Evita:
  • MP3 a bitrate molto basso (< 64 kbps)
  • Formati fortemente compressi
  • Codec telefonici (AMR, G.711) salvo necessità

Raccomandazioni di preprocessing

Prima della trascrizione

Whisper corregge molto automaticamente; il preprocessing può migliorare i risultati:

1. Normalizzare il volume

import numpy as np
from scipy.io import wavfile

def normalize_audio(audio_path, output_path, target_dB=-3.0):
    sr, audio = wavfile.read(audio_path)
    audio = audio.astype(np.float32)
    
    # Normalize to target dB
    max_val = np.max(np.abs(audio))
    target_linear = 10 ** (target_dB / 20)
    audio = audio * (target_linear / max_val)
    
    # Clip to prevent overflow
    audio = np.clip(audio, -1.0, 1.0)
    
    wavfile.write(output_path, sr, (audio * 32767).astype(np.int16))

2. Rimuovere il silenzio

# Remove leading/trailing silence
# Helps with processing time and accuracy

3. Riduzione del rumore (opzionale)

Per registrazioni rumorose:
# Use noise reduction libraries
# librosa, noisereduce, or specialized tools
# Only if background noise is significant

4. Ricampionare a 16 kHz (opzionale)

Per ottimizzare la dimensione del file:
import ffmpeg

stream = ffmpeg.input('input.wav')
stream = ffmpeg.output(
    stream,
    'output_16k.wav',
    ar=16000  # Resample to 16 kHz
)
ffmpeg.run(stream, overwrite_output=True)

Problemi audio comuni e soluzioni

Problema 1: frequenza di campionamento molto bassa (8 kHz)

Problema: le registrazioni telefoniche a 8 kHz possono avere accuratezza ridotta.
Soluzione:
  • Usa il modello medium o large di Whisper (migliore a basse frequenze)
  • Sovracampiona a 16 kHz (non ripristina la qualità ma aiuta l’elaborazione)

Problema 2: stereo con parlanti diversi

Problema: due parlanti su canali separati.
Soluzione:
# Extract each channel separately
import torchaudio

audio, sr = torchaudio.load('stereo.wav')
speaker1 = audio[0]  # Left channel
speaker2 = audio[1]  # Right channel

# Transcribe each separately
result1 = model.transcribe(speaker1)
result2 = model.transcribe(speaker2)

Problema 3: MP3 a bitrate variabile

Problema: il VBR può creare problemi con alcuni strumenti.
Soluzione:
  • Converti in bitrate costante (CBR) o WAV
  • Whisper gestisce bene il VBR; il CBR è più prevedibile

Problema 4: file audio corrotti

Problema: il file si riproduce ma Whisper fallisce.
Soluzione:
# Re-encode the file
import ffmpeg

stream = ffmpeg.input('corrupted.mp3')
stream = ffmpeg.output(
    stream,
    'fixed.wav',
    acodec='pcm_s16le'
)
ffmpeg.run(stream, overwrite_output=True)

Problema 5: file audio molto lunghi

Problema: memoria insufficiente o elaborazione molto lenta.
Soluzione:
  • Dividi in segmenti da 30–60 secondi
  • Elabora in sequenza o in parallelo
  • Unisci i risultati con timestamp

Raccomandazioni per scenario

Per chiamate telefoniche

ParametroValoreMotivo
Frequenza8–16 kHzQualità telefonica
FormatoWAV o MP3Standard
Bitrate≥ 64 kbpsQualità codec
CanaliMonoStandard

Per riunioni (Zoom, Teams)

ParametroValoreMotivo
Frequenza16–48 kHzAlta qualità
FormatoMP4 (estrai audio)Video
Bitrate≥ 128 kbpsBuona qualità
CanaliMono o stereoDipende dal setup

Per podcast

ParametroValoreMotivo
Frequenza44,1–48 kHzQualità professionale
FormatoMP3, WAV o M4AComuni
Bitrate≥ 128 kbpsBuona qualità
CanaliMonoStandard

Per interviste

ParametroValoreMotivo
Frequenza16–48 kHzAlta qualità
FormatoWAV o FLACMassima accuratezza
BitrateLossless o ≥ 192 kbpsProfessionale
CanaliMonoStandard

Riepilogo: requisiti audio Whisper

Requisiti minimi

  • Formato: qualsiasi formato supportato da FFmpeg
  • Frequenza: qualsiasi (consigliato minimo 8 kHz)
  • Profondità bit: 8 bit o superiore
  • Canali: mono o stereo (preferito mono)
  • Dimensione file: nessun limite rigido (chunk se > 100 MB)
  • Durata: nessun limite rigido (chunk se > 1 ora)

Requisiti ottimali

  • Formato: WAV, FLAC o MP3 (≥128 kbps)
  • Frequenza: 16 kHz (ottimale, nessun ricampionamento)
  • Profondità: PCM 16 bit
  • Canali: mono
  • Qualità: parlato chiaro, poco rumore
  • Preprocessing: volume normalizzato, nessun clipping

Riferimento rapido: checklist preparazione audio

Prima di trascrivere con Whisper:
  • Formato: WAV, MP3, FLAC, M4A o altro supportato
  • Frequenza: 16 kHz (ottimale) o altra supportata
  • Profondità bit: 16 bit (consigliata)
  • Canali: mono (preferito) o stereo
  • Dimensione: < 100 MB (o pianifica chunk)
  • Durata: < 1 ora (o pianifica chunk)
  • Qualità: parlato chiaro, poco rumore di fondo
  • Volume: normalizzato, nessun clipping
  • Codec: lossless (WAV/FLAC) o lossy di alta qualità (MP3 ≥128 kbps)

Testare l’audio

Test rapido

import whisper

# Load model
model = whisper.load_model("base")

# Test transcription
result = model.transcribe("your_audio.wav")

# Check if successful
if result["text"]:
    print("✅ Audio format is compatible")
    print(f"Detected language: {result['language']}")
else:
    print("⚠️ Transcription failed - check audio format")

Messaggi di errore comuni

ErroreCausaSoluzione
"File not found"Percorso erratoVerifica il percorso
"Unsupported format"Formato non supportatoConverti in WAV/MP3
"Out of memory"File troppo grandeSegmenta l’audio
"Empty audio"File corrottoRicodifica

Riepilogo best practice

  1. Usa 16 kHz quando possibile (ottimale per Whisper)
  2. Preferisci il mono allo stereo (Whisper elabora in mono)
  3. Usa formati lossless (WAV/FLAC) per massima accuratezza
  4. Segmenta file lunghi (> 1 ora) per accuratezza e stabilità
  5. Normalizza l’audio a livelli coerenti
  6. Riduci il rumore di fondo per risultati migliori
  7. Scegli la dimensione del modello (i modelli grandi gestiscono meglio audio difficile)
  8. Prova prima con base prima di modelli più grandi

Conclusione

Whisper è molto flessibile e gestisce molti formati e qualità. Rispettare specifiche ottimali assicura la migliore accuratezza di trascrizione:
  • Formato: WAV, FLAC o MP3 (≥128 kbps)
  • Frequenza: 16 kHz (ottimale)
  • Profondità: PCM 16 bit
  • Canali: mono
  • Qualità: parlato chiaro con poco rumore
Ricorda: audio chiaro batte specifiche perfette. Anche con parametri ideali, una registrazione scarsa riduce l’accuratezza. Punta su voce chiara, poco rumore e buon posizionamento del microfono.
In produzione, piattaforme come SayToWords gestiscono conversione formato, ricampionamento e ottimizzazione automaticamente, così puoi concentrarti sull’audio chiaro anziché sui dettagli tecnici.

Serve aiuto per preparare l’audio per Whisper? Consulta le altre guide su preprocessing, strategie di chunking e ottimizzazione dell’accuratezza.

Provalo gratis ora

Prova subito il nostro servizio basato su IA per voce, audio e video! Non solo ottieni una trascrizione voce‑testo ad alta precisione, traduzione multilingue e identificazione intelligente dei parlanti, ma puoi anche generare automaticamente sottotitoli per i video, modificare in modo intelligente i contenuti audio‑video ed effettuare analisi sincronizzate di audio e immagine. Copri tutti gli scenari: verbali di riunioni, creazione di video brevi, produzione di podcast e molto altro. Inizia ora la tua prova gratuita!

Suono a Testo OnlineSuono a Testo GratuitoConvertitore Suono in TestoSuono a Testo MP3Suono a Testo WAVSuono a Testo con TimestampVoce in testo per riunioniSound to Text Multi LanguageSuono a Testo SottotitoliConvertire WAV in testoVoce in TestoVoce in Testo OnlineVoce in TestoConvertire MP3 in TestoConvertire registrazione vocale in testoDigitazione Vocale OnlineVoce in Testo con TimestampVoce in Testo in Tempo RealeVoce in Testo per Audio LunghiVoce in Testo per VideoVoce a Testo per YouTubeVoce a Testo per Montaggio VideoVoce a Testo per SottotitoliVoce a Testo per PodcastVoce a Testo per IntervisteAudio Intervista in TestoVoce a Testo per RegistrazioniVoce a Testo per RiunioniVoce a Testo per LezioniVoce a Testo per NoteVoce in Testo MultilingueVoce in Testo PrecisaVoce in Testo VeloceAlternativa Premiere Pro Voce in TestoAlternativa DaVinci Voce in TestoAlternativa VEED Voce in TestoAlternativa InVideo Voce in TestoAlternativa Otter.ai Voce in TestoAlternativa Descript Voce in TestoAlternativa Trint Voce in TestoAlternativa Rev Voce in TestoAlternativa Sonix Voce in TestoAlternativa Happy Scribe Voce in TestoAlternativa Zoom Voce in TestoAlternativa Google Meet Voce in TestoAlternativa Microsoft Teams Voce in TestoAlternativa Fireflies.ai Voce in TestoAlternativa Fathom Voce in TestoAlternativa FlexClip Voce in TestoAlternativa Kapwing Voce in TestoAlternativa Canva Voce in TestoVoce a Testo per Audio LunghiVoce IA in TestoVoce in Testo GratuitoVoce in Testo Senza PubblicitàVoce in Testo per Audio RumorosoVoce in Testo con TempoGenera Sottotitoli da AudioTrascrizione Podcast OnlineTrascrivi Chiamate ClientiVoce TikTok a TestoAudio TikTok a TestoVoce YouTube in TestoAudio YouTube in TestoMemo Vocale in TestoMessaggio Vocale WhatsApp in TestoMessaggio Vocale Telegram in TestoTrascrizione Chiamata DiscordVoce Twitch in TestoVoce Skype in TestoVoce Messenger in TestoMessaggio Vocale LINE in TestoTrascrivi Vlog in TestoConverti Audio Sermone in TestoConverti Parlato in ScritturaTraduci Audio in TestoConverti Note Audio in TestoDigitazione VocaleDigitazione Vocale per RiunioniDigitazione Vocale per YouTubeParla per ScrivereDigitazione Senza ManiVoce in ParoleParlato in ParoleParlato in Testo OnlineOnline Transcription SoftwareParlato in Testo per RiunioniParlato in Testo VeloceReal Time Speech to TextLive Transcription AppParlato in Testo per TikTokSuono in Testo per TikTokParlare in ParoleParlato in TestoTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio in DigitazioneSuono in TestoStrumento di Scrittura VocaleStrumento di Scrittura VocaleDettatura VocaleStrumento di Trascrizione LegaleStrumento di Dettatura MedicaTrascrizione Audio GiapponeseTrascrizione Riunioni CoreaneStrumento di Trascrizione RiunioniAudio Riunione in TestoConvertitore Lezione a TestoAudio Lezione in TestoTrascrizione Video a TestoGeneratore di Sottotitoli per TikTokTrascrizione Call CenterStrumento Audio Reels a TestoTrascrivere MP3 in TestoTrascrivere file WAV in testoCapCut Voce in TestoCapCut Voce in TestoVoice to Text in EnglishAudio in Testo IngleseVoice to Text in SpanishVoice to Text in FrenchAudio in Testo FranceseVoice to Text in GermanAudio in Testo TedescoVoice to Text in JapaneseAudio in Testo GiapponeseVoice to Text in KoreanAudio in Testo CoreanoVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website