Whisper JavaScript サンプル:Node.js で音声をテキスト化

Whisper JavaScript サンプル:Node.js で音声をテキスト化

Eric King

Eric King

Author


Whisper JavaScript サンプル:Node.js で音声をテキスト化

Whisper は 音声をテキストに変換したり、音声の書き起こし長尺の音声認識に広く使われる強力なモデルです。
この記事では JavaScript(Node.js)で Whisper を使い、音声ファイルをテキストに変換する方法を説明します。
次の方におすすめです。
  • 音声テキスト化機能を作る開発者
  • 音声書き起こしを使う SaaS プロダクト
  • Whisper の JavaScript 例を探している方

Whisper とは?

Whisper は自動音声認識(ASR)モデルで、次のことができます。
  • 話し言葉をテキストに書き起こす
  • 話されている言語を自動で検出する
  • 長い音声ファイルを扱う
  • ノイズの多い録音でも比較的よく動く
よく使われる場面は次のとおりです。
  • ポッドキャスト
  • 会議
  • インタビュー
  • 動画の字幕

前提条件

始める前に、次を用意してください。
  • Node.js 18 以上
  • 音声ファイル(mp3wavm4a など)
  • 音声テキスト化用の API キー(Whisper 互換)
依存関係をインストールします。
npm install openai

基本的な Whisper JavaScript の例

以下は、音声ファイルを Whisper に送り、書き起こし結果を返す 最小限の Node.js の例です。

プロジェクト構成

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

JavaScript コード:音声からテキストへ

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

スクリプトの実行

node transcribe.js
出力の例:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

長い音声ファイルの書き起こし

Whisper は長い録音にも向いています。例:
  • ポッドキャスト
  • 講義
  • インタビュー
非常に大きなファイルでは、よくある対応は次のとおりです。
  • 音声をチャンクに分割する
  • 非同期で書き起こす
  • あとで結果を結合する

タイムスタンプ(任意)

Whisper ベースのシステムの中には、文レベルや単語レベルのタイムスタンプに対応するものがあります。
次の用途に便利です。
  • 字幕(SRT / VTT)
  • 動画編集
  • 検索可能なトランスクリプト
出力形式の例:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

対応している音声形式

Whisper は一般的な形式のほとんどに対応しています。
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
精度を高めるには:
  • はっきりした音声を使う
  • 大きな背景ノイズを避ける
  • WAV または高ビットレートの MP3 を優先する

よくある用途

  • 会議向けの音声テキスト化
  • ポッドキャストの書き起こし
  • YouTube 動画の字幕
  • インタビューの書き起こし
  • 研究・学術向けの書き起こし

Whisper と他の音声テキスト化ツール

機能Whisper
長尺音声の対応
多言語
オープンソースモデル
JavaScript 対応
タイムスタンプ
Whisper は、リアルタイム専用のソリューションと比べると、長尺の音声テキスト化に特に強いです。

まとめ

この Whisper JavaScript の例は、Node.js で 音声テキスト化機能をどれだけ簡単に作れるかを示しています。
ほんの数行のコードで、音声ファイルを正確に書き起こし、実運用に合わせてスケールできます。
音声テキスト化 SaaSを構築するなら、Whisper は次の土台として適しています。
  • 長い音声の書き起こし
  • 多言語の音声テキスト化
  • タイムスタンプ付きトランスクリプト

今すぐ無料で試す

当社のAI音声・オーディオ/ビデオサービスを今すぐお試しください。高精度な音声文字起こし、多言語翻訳、話者分離に対応するだけでなく、自動動画字幕生成、音声・映像コンテンツのインテリジェント編集、音声と映像を組み合わせた同期解析も実現します。会議記録、ショート動画制作、ポッドキャスト制作など、あらゆるシーンをこれ一つでカバーできます。今すぐ無料トライアルを始めましょう!

音声をオンラインでテキストに音声をテキストに無料音声テキスト変換ツール音声をMP3でテキストに音声をWAVでテキストに音声をテキストに(タイムスタンプ付き)会議向けサウンド→テキストSound to Text Multi Language音声をテキストで字幕にWAVをテキストに変換音声テキスト変換オンライン音声テキスト変換音声テキスト変換MP3をテキストに変換音声録音をテキストに変換オンライン音声入力タイムスタンプ付き音声テキスト変換リアルタイム音声テキスト変換長時間音声テキスト変換動画音声テキスト変換YouTube音声テキスト変換動画編集音声テキスト変換字幕音声テキスト変換ポッドキャスト音声テキスト変換インタビュー音声テキスト変換インタビュー音声をテキストに録音音声テキスト変換会議音声テキスト変換講義音声テキスト変換音声メモテキスト変換多言語音声テキスト変換高精度音声テキスト変換高速音声テキスト変換Premiere Pro音声テキスト変換代替DaVinci音声テキスト変換代替VEED音声テキスト変換代替InVideo音声テキスト変換代替Otter.ai音声テキスト変換代替Descript音声テキスト変換代替Trint音声テキスト変換代替Rev音声テキスト変換代替Sonix音声テキスト変換代替Happy Scribe音声テキスト変換代替Zoom音声テキスト変換代替Google Meet音声テキスト変換代替Microsoft Teams音声テキスト変換代替Fireflies.ai音声テキスト変換代替Fathom音声テキスト変換代替FlexClip音声テキスト変換代替Kapwing音声テキスト変換代替Canva音声テキスト変換代替長時間音声テキスト変換AI音声テキスト変換無料音声テキスト変換広告なし音声テキスト変換ノイズのある音声のテキスト変換時間付き音声テキスト変換音声から字幕を生成ポッドキャスト転写オンライン顧客通話を転写TikTok音声をテキストにTikTok音声をテキストにYouTube音声テキスト変換YouTube音声をテキストに音声メモテキスト変換WhatsApp音声メッセージテキスト変換Telegram音声メッセージテキスト変換Discord通話転写Twitch音声テキスト変換Skype音声テキスト変換Messenger音声テキスト変換LINE音声メッセージテキスト変換Vlog転写テキスト変換説教オーディオテキスト変換音声テキスト変換オーディオテキスト変換音声ノートテキスト変換音声入力会議音声入力YouTube音声入力話して入力ハンズフリー入力音声を文字に音声を単語にオンライン音声テキスト変換Online Transcription Software会議音声テキスト変換高速音声テキスト変換Real Time Speech to TextLive Transcription AppTikTok音声テキスト変換TikTok音声テキスト変換話した言葉を文字に音声をテキストにTalk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音声をタイピングに音声をテキストに音声書き込みツール音声書き込みツール音声入力法的転写ツール医療音声入力ツール日本語音声転写韓国語会議転写会議転写ツール会議音声をテキストに講義テキスト変換ツール講義音声をテキストに動画テキスト転写TikTok字幕ジェネレーターコールセンター転写Reels音声テキスト変換ツールMP3をテキストに転写WAVファイルをテキストに転写CapCut音声テキスト変換CapCut音声テキスト変換Voice to Text in English英語音声をテキストにVoice to Text in SpanishVoice to Text in Frenchフランス語音声をテキストにVoice to Text in Germanドイツ語音声をテキストにVoice to Text in Japanese日本語音声をテキストにVoice to Text in Korean韓国語音声をテキストにVoice to Text in PortugueseVoice to Text in ArabicVoice to Text in ChineseVoice to Text in HindiVoice to Text in RussianWeb Voice Typing ToolVoice Typing Website