
Whisper 청크 크기 모범 사례: 정확도와 지연 시간을 위한 최적 설정
Eric King
Author
소개
Whisper로 음성-텍스트 변환을 할 때 적절한 청크 크기를 고르는 것은 가장 중요한 요인 중 하나입니다.
부적절한 청크 크기는 다음을 초래할 수 있습니다.
- 문장이 끊김
- 단어 누락
- 단어 오류율(WER) 증가
- 불필요한 지연 시간과 비용
이 가이드에서는 Whisper 청크 크기 모범 사례를 정리하고, 사용 사례별로 최적 설정을 고르는 데 도움을 드립니다.
Whisper에서 청크 크기가 중요한 이유
Whisper는 추론당 최대 약 30초의 오디오를 처리합니다.
길거나 연속된 오디오에서는 청크 분할이 불가피합니다.
길거나 연속된 오디오에서는 청크 분할이 불가피합니다.
청크 크기는 다음에 직접 영향을 줍니다.
- 문맥 파악
- 전사 정확도
- 지연 시간
- 시스템 처리량
권장 Whisper 청크 크기
빠른 참조 표
| 사용 사례 | 청크 크기 | 오버랩 |
|---|---|---|
| 배치 전사 | 20–30s | 2–3s |
| 팟캐스트 / YouTube | 25–30s | 3s |
| 회의 | 15–20s | 2s |
| 통화 녹음 | 10–15s | 2s |
| 스트리밍 / 라이브 | 2–5s | 0.5–1s |
긴 오디오 전사(최고 정확도)
권장 설정
- 청크 크기: 20–30초
- 오버랩: 2–3초
효과가 있는 이유:
- 문장 수준의 문맥 유지
- 구두점·대문자 품질 향상
- 문장 중간에서 끊기는 경우 감소
⚠️ 30초를 넘기지 마세요 — Whisper가 오디오를 잘릴 수 있습니다.
짧은 청크: 낮은 지연이 중요할 때
짧은 청크는 다음에 유용합니다.
- 실시간 자막
- 라이브 회의
- 음성 비서
권장 설정
- 청크 크기: 2–5초
- 오버랩: 0.5–1초
트레이드오프:
- 피드백이 더 빠름
- 문맥은 적음
- 버퍼링 또는 재프롬프트 필요
청크 오버랩: 빼먹지 마세요
오버랩은 경계에서 단어가 사라지는 것을 막습니다.
모범 사례
- 오버랩 ≈ 청크 크기의 10–15%
- 후처리에서 겹치는 텍스트 중복 제거
- 신뢰도가 더 높은 전사 유지
예:
- 청크 크기: 20s
- 오버랩: 2s
고정 길이 vs VAD 기반 청크
고정 길이 청킹
- 단순함
- 예측 가능
❌ 문장이 잘릴 수 있음
❌ 대화에는 불리
❌ 대화에는 불리
VAD 기반 청킹(권장)
음성 활동 검출을 사용하면:
- 침묵에서 분할
- 자연스러운 구간 생성
- 가독성 향상
많이 쓰는 VAD:
- WebRTC VAD
- Silero VAD
- pyannote.audio
오디오 유형별 청크 크기 조정
팟캐스트·독백
- 더 큰 청크(25–30s)
- 오버랩 최소
- 정확도 우선
대화·통화
- 중간 청크(10–15s)
- VAD 기반 분할
- 화자를 고려한 병합
노이즈가 많은 오디오
- 더 작은 청크(8–12s)
- 오버랩 증가
- 오류 전파 완화에 도움
청크 간 프롬프트
Whisper는 청크 간에 기억을 유지하지 않습니다.
연속성을 높이려면:
result = model.transcribe(
chunk,
initial_prompt=previous_text
)
문맥 이월을 모사하여 일관성이 좋아집니다.
성능과 비용
| 청크 크기 | 정확도 | 지연 시간 | 비용 |
|---|---|---|---|
| 2–5s | 보통 | 매우 낮음 | 높음 |
| 10–15s | 높음 | 보통 | 보통 |
| 20–30s | 매우 높음 | 다소 높음 | 낮음 |
💡 청크가 클수록 API 호출이 줄어 비용 효율이 좋아집니다.
흔한 청크 크기 실수
❌ 피할 것
- 어디서나 최대 크기 사용
- 청크 간 오버랩 없음
- 모든 오디오에 동일한 크기
- 침묵 검출 무시
✅ 모범 사례
- 사용 사례별로 청크 크기 조정
- 항상 오버랩 사용
- 테스트하고 WER 측정
실무 권장
대부분의 음성-텍스트 플랫폼에서:
- 라이브 미리보기 → 3–5초 청크
- 최종 전사본 → 20–30초 청크
- 어디서나 VAD + 오버랩
이 하이브리드 접근은 다음의 균형을 맞춥니다.
- 사용자 경험
- 정확도
- 비용
마무리
Whisper에 만능의 “최고” 청크 크기는 없습니다.
최적 구성은 다음에 달려 있습니다.
- 오디오 길이
- 지연 요구사항
- 정확도 기대치
- 인프라 비용
이 모범 사례를 따르면 전사 품질을 크게 높이면서도 시스템을 효율적이고 확장 가능하게 유지할 수 있습니다.
청크 크기, 오버랩, 후처리를 이미 자동으로 적용하는 프로덕션 준비 솔루션이 필요하면 SayToWords 같은 도구를 참고하세요.
FAQ
Q: Whisper의 최대 청크 크기는?
A: 추론당 약 30초입니다.
Q: 오버랩이 정말 필요한가요?
A: 네. 청크 경계에서 단어가 빠지는 것을 막습니다.
Q: 스트리밍과 배치에 같은 청크 크기를 써야 하나요?
A: 아니요. 스트리밍은 작은 청크, 배치는 큰 청크에 유리합니다.
