Пример Whisper на JavaScript: речь в текст с Node.js

Пример Whisper на JavaScript: речь в текст с Node.js

Eric King

Eric King

Author


Пример Whisper на JavaScript: речь в текст с Node.js

Whisper — мощная модель преобразования речи в текст, широко используемая для голоса в текст, транскрипции аудио и распознавания длинной речи.
В этой статье вы узнаете, как использовать Whisper с JavaScript (Node.js), чтобы превращать аудиофайлы в текст.
Это руководство подойдёт:
  • Разработчикам, которые создают функции речи в текст
  • SaaS-продуктам с транскрипцией аудио
  • Всем, кто ищет пример Whisper на JavaScript

Что такое Whisper?

Whisper — модель автоматического распознавания речи (ASR), которая может:
  • Транскрибировать речь в текст
  • Автоматически определять язык речи
  • Обрабатывать длинные аудиофайлы
  • Хорошо работать с зашумлёнными записями
Его обычно используют для:
  • Подкастов
  • Встреч
  • Интервью
  • Субтитров к видео

Что понадобится

Перед началом убедитесь, что у вас есть:
  • Node.js 18+
  • Аудиофайл (mp3, wav, m4a и т. д.)
  • API-ключ для речи в текст (совместимый с Whisper)
Установите зависимости:
npm install openai

Базовый пример Whisper на JavaScript

Ниже — минимальный пример на Node.js, который отправляет аудиофайл в Whisper и возвращает транскрипцию.

Структура проекта

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

Код JavaScript: аудио в текст

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

Запуск скрипта

node transcribe.js
Пример вывода:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

Транскрипция длинных аудиофайлов

Whisper хорошо справляется с длинными записями, например:
  • Подкасты
  • Лекции
  • Интервью
Для очень больших файлов обычно рекомендуют:
  • Разбивать аудио на фрагменты
  • Транскрибировать асинхронно
  • Затем объединять результаты

Временные метки (по желанию)

Некоторые системы на базе Whisper поддерживают временные метки на уровне предложения или слова.
Это полезно для:
  • Субтитров (SRT / VTT)
  • Монтажа видео
  • Поиска по транскриптам
Пример формата вывода:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

Поддерживаемые аудиоформаты

Whisper поддерживает большинство распространённых форматов:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
Для лучшей точности:
  • Используйте чистое аудио
  • Избегайте сильного фонового шума
  • Предпочитайте WAV или MP3 с высоким битрейтом

Типичные сценарии использования

  • Речь в текст для встреч
  • Транскрипция подкастов
  • Субтитры для видео на YouTube
  • Транскрипция интервью
  • Транскрипция для исследований и учёбы

Whisper и другие инструменты речи в текст

ВозможностьWhisper
Длинное аудио
Многоязычность
Открытая модель
Поддержка JavaScript
Временные метки
Whisper особенно силён в длинной речи в текст по сравнению со многими решениями только в реальном времени.

Заключение

Этот пример Whisper на JavaScript показывает, как просто добавить речь в текст с помощью Node.js.
Всего несколько строк кода — и вы можете точно транскрибировать аудиофайлы и масштабировать это для реальных задач.
Если вы создаёте SaaS для речи в текст, Whisper — надёжная основа для:
  • Транскрипции длинного аудио
  • Многоязычной речи в текст
  • Транскриптов с временными метками

Попробовать бесплатно

Попробуйте наш сервис ИИ для работы с голосом, аудио и видео уже сейчас! Вы получите не только высокоточную транскрипцию речи в текст, многоязычный перевод и интеллектуальное разделение по дикторам, но и автоматическую генерацию субтитров к видео, умное редактирование аудио‑ и видеоконтента и синхронный аудио‑видео‑анализ. Решение охватывает все сценарии — от протоколирования встреч до создания коротких видео и подкастов. Начните бесплатный тест уже сегодня!

Звук в текст онлайнЗвук в текст бесплатноКонвертер звука в текстЗвук в текст MP3Звук в текст WAVЗвук в текст с метками времениЗвук в текст для встречSound to Text Multi LanguageЗвук в текст субтитрыКонвертировать WAV в текстГолос в ТекстГолос в Текст ОнлайнРечь в ТекстКонвертировать MP3 в текстКонвертировать голосовую запись в текстГолосовой Ввод ОнлайнГолос в Текст с Временными МеткамиГолос в Текст в Реальном ВремениГолос в Текст для Длинного АудиоГолос в Текст для ВидеоГолос в Текст для YouTubeГолос в Текст для ВидеомонтажаГолос в Текст для СубтитровГолос в Текст для ПодкастовГолос в Текст для ИнтервьюАудио интервью в текстГолос в Текст для ЗаписейГолос в Текст для ВстречГолос в Текст для ЛекцийГолос в Текст для ЗаметокГолос в Текст МногоязычныйГолос в Текст ТочныйГолос в Текст БыстроАльтернатива Premiere Pro Голос в ТекстАльтернатива DaVinci Голос в ТекстАльтернатива VEED Голос в ТекстАльтернатива InVideo Голос в ТекстАльтернатива Otter.ai Голос в ТекстАльтернатива Descript Голос в ТекстАльтернатива Trint Голос в ТекстАльтернатива Rev Голос в ТекстАльтернатива Sonix Голос в ТекстАльтернатива Happy Scribe Голос в ТекстАльтернатива Zoom Голос в ТекстАльтернатива Google Meet Голос в ТекстАльтернатива Microsoft Teams Голос в ТекстАльтернатива Fireflies.ai Голос в ТекстАльтернатива Fathom Голос в ТекстАльтернатива FlexClip Голос в ТекстАльтернатива Kapwing Голос в ТекстАльтернатива Canva Голос в ТекстГолос в Текст для Длинного АудиоИИ Голос в ТекстГолос в Текст БесплатноГолос в Текст Без РекламыГолос в Текст для Шумного АудиоГолос в Текст с ВременемГенерировать Субтитры из АудиоТранскрипция Подкастов ОнлайнТранскрибировать Звонки КлиентовГолос TikTok в ТекстАудио TikTok в ТекстYouTube Голос в ТекстYouTube Аудио в ТекстГолосовая Заметка в ТекстГолосовое Сообщение WhatsApp в ТекстГолосовое Сообщение Telegram в ТекстТранскрипция Звонка DiscordГолос Twitch в ТекстГолос Skype в ТекстГолос Messenger в ТекстГолосовое Сообщение LINE в ТекстТранскрибировать Влоги в ТекстКонвертировать Аудио Проповеди в ТекстПреобразовать Речь в ПисьмоПеревести Аудио в ТекстПреобразовать Аудио Заметки в ТекстГолосовой ВводГолосовой Ввод для ВстречГолосовой Ввод для YouTubeГовори и ПечатайПечать Без РукГолос в СловаРечь в СловаРечь в Текст ОнлайнOnline Transcription SoftwareРечь в Текст для ВстречБыстрая Речь в ТекстReal Time Speech to TextLive Transcription AppРечь в Текст для TikTokЗвук в Текст для TikTokРечь в Слова (говоря)Речь в ТекстTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for MeetingsАудио в ПечатьЗвук в ТекстИнструмент Голосового ПисанияИнструмент Речевого ПисанияГолосовая ДиктовкаИнструмент Юридической ТранскрипцииИнструмент Медицинской ДиктовкиЯпонская Аудио ТранскрипцияКорейская Транскрипция ВстречИнструмент Транскрипции ВстречАудио встречи в текстКонвертер Лекций в ТекстАудио лекции в текстТранскрипция Видео в ТекстГенератор Субтитров для TikTokТранскрипция Колл-ЦентраИнструмент Reels Аудио в ТекстТранскрибировать MP3 в ТекстТранскрибировать WAV файл в текстCapCut Голос в ТекстCapCut Голос в ТекстVoice to Text in EnglishАудио в текст на английскомVoice to Text in SpanishVoice to Text in FrenchАудио в текст на французскомVoice to Text in GermanАудио в текст на немецкомVoice to Text in JapaneseАудио в текст на японскомVoice to Text in KoreanАудио в текст на корейскомVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website