Exigences audio de Whisper : guide complet des formats pris en charge et des spécifications

Exigences audio de Whisper : guide complet des formats pris en charge et des spécifications

Eric King

Eric King

Author


Comprendre les exigences audio de Whisper est essentiel pour obtenir la meilleure précision de transcription. Whisper est flexible et accepte de nombreux formats audio ; respecter des spécifications optimales garantit des performances maximales.
Ce guide complet couvre toutes les exigences audio, les formats pris en charge, les spécifications techniques et les bonnes pratiques pour préparer des fichiers audio destinés à la transcription Whisper.

Formats audio pris en charge

Whisper prend en charge un large éventail de formats audio et vidéo via FFmpeg. Voici la liste complète :

Formats audio

FormatExtensionNotes
WAV.wav✅ Préféré, sans perte
MP3.mp3✅ Très répandu
FLAC.flac✅ Sans perte, bonne compression
M4A.m4a✅ Format Apple, codec AAC
AAC.aac✅ Compression haute qualité
OGG.ogg✅ Format open source
OPUS.opus✅ Faible latence, adapté au web
WMA.wma⚠️ Moins courant
AMR.amr⚠️ Faible qualité, enregistrements téléphoniques

Formats vidéo (extraction audio)

FormatExtensionNotes
MP4.mp4✅ Format vidéo le plus courant
AVI.avi✅ Ancien format, toujours pris en charge
MKV.mkv✅ Conteneur
MOV.mov✅ Format QuickTime
WebM.webm✅ Vidéo web
FLV.flv⚠️ Ancien format Flash
Important : Whisper extrait automatiquement l’audio des fichiers vidéo ; vous pouvez donc télécharger des vidéos directement.

Exigences de fréquence d’échantillonnage

Fréquence optimale : 16 kHz

Whisper rééchantillonne en interne tout l’audio en 16 kHz mono avant traitement. C’est la fréquence optimale pour la reconnaissance vocale.

Fréquences prises en charge

Whisper accepte tout taux d’échantillonnage ; voici l’essentiel :
Fréquence d’entréeTraitement WhisperRecommandation
8 kHzRééchantillonnage à 16 kHz✅ Appels téléphoniques, acceptable
16 kHzUtilisation directeOptimal, pas de rééchantillonnage
22,05 kHzRééchantillonnage à 16 kHz✅ Bonne qualité
44,1 kHzRééchantillonnage à 16 kHz✅ Qualité CD, correct
48 kHzRééchantillonnage à 16 kHz✅ Audio pro, correct
96 kHzRééchantillonnage à 16 kHz⚠️ Inutile, fichiers plus lourds
Point clé : Des fréquences plus élevées n’améliorent pas la précision de Whisper. Le modèle a été entraîné sur de l’audio 16 kHz ; fournir du 16 kHz en entrée évite un rééchantillonnage et des fichiers inutilement volumineux.

Bonne pratique

# Convert audio to 16 kHz before processing (optional optimization)
import ffmpeg

def convert_to_16khz(input_file, output_file):
    stream = ffmpeg.input(input_file)
    stream = ffmpeg.output(
        stream,
        output_file,
        acodec='pcm_s16le',
        ac=1,  # Mono
        ar=16000  # 16 kHz
    )
    ffmpeg.run(stream, overwrite_output=True)

Exigences de profondeur en bits

Profondeurs prises en charge

ProfondeurStatutNotes
8 bits✅ Pris en chargeFaible qualité, non recommandé
16 bitsRecommandéStandard, suffisant
24 bits✅ Pris en chargeProfessionnel, fichiers plus lourds
32 bits float✅ Pris en chargeQualité studio, excessif
Recommandation : Le PCM 16 bits est la norme et offre une excellente qualité pour la reconnaissance vocale. Des profondeurs supérieures n’améliorent pas la précision de transcription.

Configuration des canaux : mono vs stéréo

Mono (recommandé)

Whisper traite l’audio en mono en interne ; une entrée mono est donc optimale.
Avantages :
  • Fichiers plus petits
  • Traitement plus rapide
  • Pas de mixage de canaux nécessaire
  • Optimal pour un seul locuteur
Utilisez le mono pour :
  • Enregistrements à un locuteur
  • Appels téléphoniques
  • Podcasts avec un seul animateur
  • La plupart des tâches de transcription

Stéréo (pris en charge)

Les fichiers stéréo sont automatiquement convertis en mono (moyenne ou sélection d’un canal).
Quand le stéréo est utile :
  • Locuteurs séparés sur des canaux distincts (rare)
  • L’enregistrement d’origine est stéréo (conversion automatique)
Bonne pratique : Si vous le pouvez, convertissez le stéréo en mono avant traitement :
import ffmpeg

# Convert stereo to mono
stream = ffmpeg.input('stereo_audio.wav')
stream = ffmpeg.output(
    stream,
    'mono_audio.wav',
    ac=1  # Mono channel
)
ffmpeg.run(stream, overwrite_output=True)

Limites de taille de fichier

Limites pratiques

Whisper n’impose pas de limite stricte de taille, mais des contraintes pratiques s’appliquent :
TailleTemps de traitementRecommandation
< 10 MoSecondes✅ Idéal
10–100 MoMinutes✅ Bon
100–500 Mo10–30 minutes⚠️ Envisager le découpage
> 500 Mo30+ minutes⚠️ Découpage obligatoire

Mémoire

Les gros fichiers demandent plus de RAM/VRAM :
  • Modèle base : ~1–2 Go VRAM
  • Modèle small : ~2–3 Go VRAM
  • Modèle medium : ~5–6 Go VRAM
  • Modèle large : ~10–12 Go VRAM
Bonne pratique : Pour les fichiers > 100 Mo, découpez en segments (voir ci-dessous).

Limites de durée

Durée recommandée

DuréeStatutNotes
< 30 minutes✅ OptimalTraitement direct
30–60 minutes✅ BonDécoupage possible
1–2 heures⚠️ Découpage recommandéSouvent meilleure précision
> 2 heures⚠️ Découpage obligatoireNécessaire pour la stabilité

Pourquoi découper les longs enregistrements ?

  1. Limites mémoire : Évite les erreurs de mémoire insuffisante
  2. Meilleure précision : Les segments courts conservent mieux le contexte
  3. Traitement plus rapide : Traitement parallèle possible
  4. Récupération d’erreurs : Si un segment échoue, les autres peuvent réussir
Stratégie de découpage :
# Split long audio into 30-60 second chunks with 5-10 second overlap
def chunk_audio(audio_path, chunk_length=60, overlap=5):
    # Implementation: split audio into segments
    # Process each chunk separately
    # Merge results with timestamps
    pass

Exigences de qualité audio

Niveaux minimums

Pour une précision acceptable, l’audio doit respecter :
FacteurMinimumOptimal
Rapport signal/bruit> 10 dB> 20 dB
Débit (MP3)≥ 64 kbps≥ 128 kbps
Niveau sonoreAudibleNormalisé à -3 dB
Bruit de fondMinimalAucun
Écho/réverbérationMinimalAucun

Liste de contrôle qualité

Avant transcription, vérifiez :
  • Parole claire : Les locuteurs sont audibles et compréhensibles
  • Peu de bruit : L’arrière-plan ne noie pas la voix
  • Volume stable : Pas de variations brutales
  • Pas d’écrêtage : Pas de distorsion ni saturation
  • Bon micro : Matériel d’enregistrement de qualité

Exigences de codec

Codecs recommandés

CodecFormatQualitéRecommandation
PCMWAVSans perteMeilleur pour la précision
FLACFLACSans perte✅ Excellent, compressé
AACM4A, MP4Haute✅ Très bon
MP3MP3Avec perte✅ Bon à ≥128 kbps
OGG VorbisOGGAvec perte✅ Bonne qualité
OPUSOPUSAvec perte✅ Bon, faible latence

Bonnes pratiques codec

Pour une précision maximale :
  • Utilisez PCM (WAV) ou FLAC (sans perte)
Usage courant :
  • Utilisez AAC ou MP3 à ≥128 kbps (excellents résultats)
À éviter :
  • MP3 très bas débit (< 64 kbps)
  • Formats trop compressés
  • Codecs téléphoniques (AMR, G.711) sauf nécessité

Recommandations de prétraitement audio

Avant transcription

Whisper corrige beaucoup de problèmes automatiquement ; le prétraitement peut améliorer les résultats :

1. Normaliser le volume

import numpy as np
from scipy.io import wavfile

def normalize_audio(audio_path, output_path, target_dB=-3.0):
    sr, audio = wavfile.read(audio_path)
    audio = audio.astype(np.float32)
    
    # Normalize to target dB
    max_val = np.max(np.abs(audio))
    target_linear = 10 ** (target_dB / 20)
    audio = audio * (target_linear / max_val)
    
    # Clip to prevent overflow
    audio = np.clip(audio, -1.0, 1.0)
    
    wavfile.write(output_path, sr, (audio * 32767).astype(np.int16))

2. Supprimer le silence

# Remove leading/trailing silence
# Helps with processing time and accuracy

3. Réduction de bruit (optionnel)

Pour les enregistrements bruyants :
# Use noise reduction libraries
# librosa, noisereduce, or specialized tools
# Only if background noise is significant

4. Rééchantillonner à 16 kHz (optionnel)

Pour optimiser la taille des fichiers :
import ffmpeg

stream = ffmpeg.input('input.wav')
stream = ffmpeg.output(
    stream,
    'output_16k.wav',
    ar=16000  # Resample to 16 kHz
)
ffmpeg.run(stream, overwrite_output=True)

Problèmes audio courants et solutions

Problème 1 : Fréquence d’échantillonnage très basse (8 kHz)

Problème : Les enregistrements téléphoniques à 8 kHz peuvent être moins précis.
Solution :
  • Utilisez le modèle medium ou large de Whisper (meilleur à basse fréquence)
  • Suréchantillonnez à 16 kHz (ne restaure pas la qualité mais aide le traitement)

Problème 2 : Stéréo avec locuteurs différents

Problème : Deux locuteurs sur des canaux séparés.
Solution :
# Extract each channel separately
import torchaudio

audio, sr = torchaudio.load('stereo.wav')
speaker1 = audio[0]  # Left channel
speaker2 = audio[1]  # Right channel

# Transcribe each separately
result1 = model.transcribe(speaker1)
result2 = model.transcribe(speaker2)

Problème 3 : MP3 à débit variable (VBR)

Problème : Le VBR peut poser problème à certains outils.
Solution :
  • Convertissez en débit constant (CBR) ou WAV
  • Whisper gère le VBR, mais le CBR est plus prévisible

Problème 4 : Fichiers audio corrompus

Problème : Le fichier se lit mais Whisper échoue.
Solution :
# Re-encode the file
import ffmpeg

stream = ffmpeg.input('corrupted.mp3')
stream = ffmpeg.output(
    stream,
    'fixed.wav',
    acodec='pcm_s16le'
)
ffmpeg.run(stream, overwrite_output=True)

Problème 5 : Fichiers audio très longs

Problème : Mémoire insuffisante ou traitement très lent.
Solution :
  • Découpez en segments de 30–60 secondes
  • Traitez en séquence ou en parallèle
  • Fusionnez les résultats avec horodatage

Recommandations par contexte

Appels téléphoniques

ParamètreValeurRaison
Fréquence8–16 kHzQualité téléphone
FormatWAV ou MP3Standard
Débit≥ 64 kbpsQualité codec
CanauxMonoStandard appels

Réunions (Zoom, Teams)

ParamètreValeurRaison
Fréquence16–48 kHzHaute qualité
FormatMP4 (extraire l’audio)Vidéo
Débit≥ 128 kbpsBonne qualité
CanauxMono ou stéréoSelon configuration

Podcasts

ParamètreValeurRaison
Fréquence44,1–48 kHzQualité pro
FormatMP3, WAV ou M4ACourants
Débit≥ 128 kbpsBonne qualité
CanauxMonoStandard podcasts

Interviews

ParamètreValeurRaison
Fréquence16–48 kHzHaute qualité
FormatWAV ou FLACPrécision maximale
DébitSans perte ou ≥ 192 kbpsProfessionnel
CanauxMonoStandard

Synthèse : exigences audio Whisper

Exigences minimales

  • Format : Tout format pris en charge par FFmpeg
  • Fréquence : Toute (8 kHz minimum recommandé)
  • Profondeur : 8 bits ou plus
  • Canaux : Mono ou stéréo (mono préféré)
  • Taille : Pas de limite stricte (découper si > 100 Mo)
  • Durée : Pas de limite stricte (découper si > 1 heure)

Exigences optimales

  • Format : WAV, FLAC ou MP3 (≥128 kbps)
  • Fréquence : 16 kHz (optimal, pas de rééchantillonnage)
  • Profondeur : PCM 16 bits
  • Canaux : Mono
  • Qualité : Parole claire, peu de bruit
  • Prétraitement : Volume normalisé, pas d’écrêtage

Référence rapide : liste de préparation audio

Avant transcription avec Whisper :
  • Format : WAV, MP3, FLAC, M4A ou autre format pris en charge
  • Fréquence : 16 kHz (optimal) ou tout taux pris en charge
  • Profondeur : 16 bits (recommandé)
  • Canaux : Mono (préféré) ou stéréo
  • Taille : < 100 Mo (ou prévoir le découpage)
  • Durée : < 1 heure (ou prévoir le découpage)
  • Qualité : Parole claire, peu de bruit de fond
  • Volume : Normalisé, pas d’écrêtage
  • Codec : Sans perte (WAV/FLAC) ou avec perte haute qualité (MP3 ≥128 kbps)

Tester votre audio

Test rapide

import whisper

# Load model
model = whisper.load_model("base")

# Test transcription
result = model.transcribe("your_audio.wav")

# Check if successful
if result["text"]:
    print("✅ Audio format is compatible")
    print(f"Detected language: {result['language']}")
else:
    print("⚠️ Transcription failed - check audio format")

Messages d’erreur courants

ErreurCauseSolution
« File not found »Chemin incorrectVérifier le chemin
« Unsupported format »Format non pris en chargeConvertir en WAV/MP3
« Out of memory »Fichier trop volumineuxDécouper l’audio
« Empty audio »Fichier corrompuRéencoder le fichier

Synthèse des bonnes pratiques

  1. 16 kHz quand c’est possible (optimal pour Whisper)
  2. Préférer le mono au stéréo (Whisper traite en mono en interne)
  3. Formats sans perte (WAV/FLAC) pour une précision maximale
  4. Découper les longs fichiers (> 1 h) pour précision et stabilité
  5. Normaliser l’audio pour des niveaux cohérents
  6. Réduire le bruit de fond pour de meilleurs résultats
  7. Choisir la taille de modèle adaptée (les grands modèles gèrent mieux un mauvais audio)
  8. Tester d’abord avec le modèle base avant les modèles plus grands

Conclusion

Whisper est très flexible et accepte de nombreux formats et qualités audio. Respecter des spécifications optimales assure toutefois la meilleure précision de transcription :
  • Format : WAV, FLAC ou MP3 (≥128 kbps)
  • Fréquence : 16 kHz (optimal)
  • Profondeur : PCM 16 bits
  • Canaux : Mono
  • Qualité : Parole claire avec peu de bruit
Rappelez-vous : un audio clair prime sur des spécifications techniques parfaites. Même avec des réglages optimaux, une mauvaise qualité d’enregistrement réduit la précision. Privilégiez une parole claire, peu de bruit et un bon placement du micro.
En production, des plateformes comme SayToWords gèrent automatiquement conversion de format, rééchantillonnage et optimisation, pour que vous vous concentriez sur un audio clair plutôt que sur les détails techniques.

Besoin d’aide pour préparer votre audio pour Whisper ? Consultez nos autres guides sur le prétraitement audio, les stratégies de découpage et l’optimisation de la précision.

Essayer gratuitement maintenant

Testez dès maintenant notre service IA pour la voix, l’audio et la vidéo. Vous bénéficiez d’une transcription vocale en texte très précise, de la traduction multilingue et d’une identification intelligente des locuteurs, mais aussi de la génération automatique de sous‑titres vidéo, de l’édition intelligente de contenu audiovisuel et d’analyses audio‑visuelles synchronisées. La solution couvre tous les cas d’usage : comptes‑rendus de réunion, création de vidéos courtes, production de podcasts, et bien plus encore. Lancez votre essai gratuit dès aujourd’hui !

Son à Texte en LigneSon à Texte GratuitConvertisseur Son à TexteSon à Texte MP3Son à Texte WAVSon à Texte avec HorodatageVoix en texte pour réunionsSound to Text Multi LanguageSon à Texte Sous-titresConvertir WAV en texteVoix en TexteVoix en Texte en LigneParole en texteConvertir MP3 en texteConvertir enregistrement vocal en texteSaisie Vocale en LigneVoix en Texte avec HorodatageVoix en Texte en Temps RéelVoix en Texte pour Audio LongVoix en Texte pour VidéoVoix en Texte pour YouTubeVoix en Texte pour Montage VidéoVoix en Texte pour Sous-titresVoix en Texte pour PodcastsVoix en Texte pour InterviewsAudio d'Entretien en TexteVoix en Texte pour EnregistrementsVoix en Texte pour RéunionsVoix en Texte pour CoursVoix en Texte pour NotesVoix en Texte MultilingueVoix en Texte PréciseVoix en Texte RapideAlternative Premiere Pro Voix en TexteAlternative DaVinci Voix en TexteAlternative VEED Voix en TexteAlternative InVideo Voix en TexteAlternative Otter.ai Voix en TexteAlternative Descript Voix en TexteAlternative Trint Voix en TexteAlternative Rev Voix en TexteAlternative Sonix Voix en TexteAlternative Happy Scribe Voix en TexteAlternative Zoom Voix en TexteAlternative Google Meet Voix en TexteAlternative Microsoft Teams Voix en TexteAlternative Fireflies.ai Voix en TexteAlternative Fathom Voix en TexteAlternative FlexClip Voix en TexteAlternative Kapwing Voix en TexteAlternative Canva Voix en TexteReconnaissance Vocale pour Audio LongVoix IA en TexteVoix en Texte GratuitVoix en Texte Sans PublicitéVoix en Texte pour Audio BruyantVoix en Texte avec TempsGénérer des Sous-titres depuis l'AudioTranscription de Podcasts en LigneTranscrire les Appels ClientsVoix TikTok vers TexteAudio TikTok vers TexteVoix YouTube en TexteAudio YouTube en TexteMémo Vocal en TexteMessage Vocal WhatsApp en TexteMessage Vocal Telegram en TexteTranscription d'Appel DiscordVoix Twitch en TexteVoix Skype en TexteVoix Messenger en TexteMessage Vocal LINE en TexteTranscrire les Vlogs en TexteConvertir l'Audio de Sermon en TexteConvertir la Parole en ÉcritureTraduire l'Audio en TexteConvertir les Notes Audio en TexteSaisie VocaleSaisie Vocale pour RéunionsSaisie Vocale pour YouTubeParler pour ÉcrireSaisie Sans MainsVoix en MotsParole en MotsParole en Texte en LigneOnline Transcription SoftwareParole en Texte pour RéunionsParole en Texte RapideReal Time Speech to TextLive Transcription AppParole en Texte pour TikTokSon en Texte pour TikTokParler en MotsParole en TexteTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsAudio en SaisieSon en TexteOutil d'Écriture VocaleOutil d'Écriture par ParoleDictée VocaleOutil de Transcription JuridiqueOutil de Dictée MédicaleTranscription Audio JaponaiseTranscription de Réunions en CoréenOutil de Transcription de RéunionsAudio Réunion en TexteConvertisseur de Conférences en TexteAudio de Conférence en TexteTranscription Vidéo en TexteGénérateur de Sous-titres pour TikTokTranscription de Centre d'AppelsOutil Audio Reels vers TexteTranscrire MP3 en TexteTranscrire fichier WAV en texteCapCut Voix en TexteCapCut Voix en TexteVoice to Text in EnglishAudio en Texte AnglaisVoice to Text in SpanishVoice to Text in FrenchAudio en Texte FrançaisVoice to Text in GermanAudio en Texte AllemandVoice to Text in JapaneseAudio en Texte JaponaisVoice to Text in KoreanAudio en Texte CoréenVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website