
Whisper chunkgrootte: best practices voor nauwkeurigheid en latentie
Eric King
Author
Inleiding
De juiste chunkgrootte kiezen is een van de belangrijkste factoren bij het gebruik van Whisper voor spraak-naar-tekst.
Een slechte chunkgrootte kan leiden tot:
- Afgebroken zinnen
- Ontbrekende woorden
- Hogere word error rate (WER)
- Onnodige latentie en kosten
In deze gids leggen we best practices voor Whisper-chunkgrootte uit en helpen we je optimale instellingen te kiezen voor verschillende use cases.
Waarom chunkgrootte bij Whisper telt
Whisper verwerkt tot ~30 seconden audio per inferentie.
Bij lange of continue audio is chunken onvermijdelijk.
Bij lange of continue audio is chunken onvermijdelijk.
Chunkgrootte beïnvloedt direct:
- Contextbewustzijn
- Transcriptienauwkeurigheid
- Latentie
- Systeemdoorvoer
Aanbevolen Whisper-chunkgroottes
Snelle referentietabel
| Use case | Chunkgrootte | Overlap |
|---|---|---|
| Batchtranscriptie | 20–30s | 2–3s |
| Podcasts / YouTube | 25–30s | 3s |
| Vergaderingen | 15–20s | 2s |
| Oproepopnames | 10–15s | 2s |
| Streaming / live | 2–5s | 0,5–1s |
Lange audiotranscriptie (beste nauwkeurigheid)
Aanbevolen instellingen
- Chunkgrootte: 20–30 seconden
- Overlap: 2–3 seconden
Waarom dit werkt:
- Behoudt zinsniveau-context
- Verbeterd interpunctie en hoofdletters
- Minder midden-in-de-zin knippen
⚠️ Ga niet boven 30 seconden — Whisper kan audio inkorten.
Korte chunks: wanneer lage latentie telt
Korte chunks zijn nuttig voor:
- Realtime ondertiteling
- Live vergaderingen
- Spraakassistenten
Aanbevolen instellingen
- Chunkgrootte: 2–5 seconden
- Overlap: 0,5–1 seconde
Afbakening:
- Snellere feedback
- Minder context
- Vereist buffering of opnieuw prompten
Chunk-overlap: niet overslaan
Overlap voorkomt woordverlies op grenzen.
Best practices
- Overlap ≈ 10–15% van de chunkgrootte
- Dedupe overlappende tekst in nabewerking
- Houd de transcriptie met hogere betrouwbaarheid
Voorbeeld:
- Chunkgrootte: 20s
- Overlap: 2s
Vaste lengte vs. VAD-gebaseerde chunks
Chunking met vaste lengte
- Eenvoudig
- Voorspelbaar
❌ Kan zinnen afkappen
❌ Slechter voor gesprekken
❌ Slechter voor gesprekken
VAD-gebaseerd chunking (aanbevolen)
Met Voice Activity Detection:
- Splitst op stilte
- Geeft natuurlijke segmenten
- Verbeterde leesbaarheid
Populaire VAD-opties:
- WebRTC VAD
- Silero VAD
- pyannote.audio
Chunkgrootte afstemmen op audiotype
Podcasts en monologen
- Grotere chunks (25–30s)
- Minimaal overlap
- Focus op hoge nauwkeurigheid
Gesprekken en gesprekken op band
- Middelgrote chunks (10–15s)
- VAD-gebaseerde splitsing
- Sprekerbewuste samenvoeging
Ruisige audio
- Kleinere chunks (8–12s)
- Meer overlap
- Helpt foutpropagatie te beperken
Prompten tussen chunks
Whisper houdt geen geheugen tussen chunks.
Voor betere continuïteit:
result = model.transcribe(
chunk,
initial_prompt=previous_text
)
Dit simuleert contextoverdracht en verbetert samenhang.
Prestaties en kosten
| Chunkgrootte | Nauwkeurigheid | Latentie | Kosten |
|---|---|---|---|
| 2–5s | Gemiddeld | Zeer laag | Hoog |
| 10–15s | Hoog | Gemiddeld | Gemiddeld |
| 20–30s | Zeer hoog | Hoger | Laag |
💡 Grotere chunks = minder API-aanroepen en betere kostenefficiëntie.
Veelgemaakte fouten bij chunkgrootte
❌ Vermijd:
- Overal maximale grootte gebruiken
- Geen overlap tussen chunks
- Dezelfde chunkgrootte voor alle audiotypes
- Stilledetectie negeren
✅ Best practices:
- Stem chunkgrootte af per use case
- Gebruik altijd overlap
- Test en meet WER
Aanbeveling voor productie
Voor de meeste spraak-naar-tekstplatforms:
- Live preview → chunks van 3–5s
- Definitieve transcriptie → chunks van 20–30s
- Overal VAD + overlap
Deze hybride aanpak balanceert:
- Gebruikerservaring
- Nauwkeurigheid
- Kosten
Slotwoord
Er is geen universeel “beste” Whisper-chunkgrootte.
De optimale setup hangt af van:
- Audiolengte
- Latentie-eisen
- Verwachte nauwkeurigheid
- Infrastructuurkosten
Met deze best practices verbeter je transcriptiekwaliteit aanzienlijk en houd je je systeem efficiënt en schaalbaar.
Wil je een productieklare oplossing die deze optimalisaties al toepast, dan regelen tools zoals SayToWords chunkgrootte, overlap en nabewerking automatisch.
FAQ
V: Wat is de maximale chunkgrootte voor Whisper?
A: Ongeveer 30 seconden per inferentie.
V: Is overlap echt nodig?
A: Ja. Overlap voorkomt ontbrekende woorden op chunkgrenzen.
V: Moet ik dezelfde chunkgrootte gebruiken voor streaming en batch?
A: Nee. Streaming heeft baat bij kleine chunks; batch bij grotere.
