Whisper JavaScript 示例:使用 Node.js 将语音转为文字

Whisper JavaScript 示例:使用 Node.js 将语音转为文字

Eric King

Eric King

Author


Whisper JavaScript 示例:使用 Node.js 将语音转为文字

Whisper 是一种强大的语音转文字模型,广泛用于语音转文字音频转写长语音识別
本文介绍如何使用 JavaScript(Node.js)配合 Whisper,将音频文件转换为文本。
本文适合:
  • 正在开发语音转文字功能的开发者
  • 使用音频转写的 SaaS 产品
  • 需要 Whisper JavaScript 示例的读者

什么是 Whisper?

Whisper 是一种自动语音识别(ASR)模型,可以:
  • 将语音转写为文字
  • 自动检测所说语言
  • 处理较长的音频文件
  • 在嘈杂录音下仍能有较好表现
常见用途包括:
  • 播客
  • 会议
  • 采访
  • 视频字幕

准备工作

开始之前,请确保具备:
  • Node.js 18 或以上
  • 音频文件(mp3wavm4a 等)
  • 语音转文字用的 API 密钥(兼容 Whisper)
安装依赖:
npm install openai

基础 Whisper JavaScript 示例

下面是一个最小的 Node.js 示例:将音频文件发送给 Whisper 并返回转写结果。

项目结构

project/
├─ audio/
│  └─ sample.mp3
├─ transcribe.js
└─ package.json

JavaScript 代码:音频转文字

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: process.env.OPENAI_API_KEY
});

async function transcribeAudio() {
  const response = await openai.audio.transcriptions.create({
    file: fs.createReadStream("./audio/sample.mp3"),
    model: "whisper-1"
  });

  console.log("Transcription result:");
  console.log(response.text);
}

transcribeAudio();

运行脚本

node transcribe.js
输出示例:
Hello everyone, welcome to today’s meeting. We will discuss the project timeline.

转写较长的音频文件

Whisper 适合处理较长录音,例如:
  • 播客
  • 讲座
  • 采访
对于非常大的文件,常见做法包括:
  • 将音频分段
  • 异步转写
  • 再合并结果

获取时间戳(可选)

部分基于 Whisper 的系统支持句子级或词级的时间戳
适用于:
  • 字幕(SRT / VTT)
  • 视频剪辑
  • 可搜索的文稿
输出格式示例:
[00:00:01] Hello everyone
[00:00:05] Welcome to today’s meeting

支持的音频格式

Whisper 支持大多数常见格式:
  • MP3
  • WAV
  • M4A
  • MP4
  • WEBM
若要提高准确度:
  • 使用清晰的音频
  • 尽量避免强烈背景噪音
  • 优先使用 WAV 或高码率 MP3

常见使用场景

  • 会议语音转文字
  • 播客转写
  • YouTube 视频字幕
  • 采访转写
  • 研究与学术转写

Whisper 与其他语音转文字工具

功能Whisper
长音频支持
多语言
开源模型
JavaScript 支持
时间戳支持
与许多仅支持实时场景的方案相比,Whisper 在长内容语音转文字方面尤其出色。

总结

本 Whisper JavaScript 示例说明,使用 Node.js 构建语音转文字功能可以非常简单。
只需少量代码,就能准确转写音频文件,并扩展到实际应用场景。
若您正在构建语音转文字 SaaS,Whisper 可为以下需求提供坚实基础:
  • 长音频转写
  • 多语言语音转文字
  • 带时间戳的文稿

立即免費試用

現在就體驗我們的 AI 語音與音視頻服務!不僅可以享受高精度語音轉文字、多語言翻譯與智能說話人識別,還能自動生成視頻字幕、智能編輯音視頻內容並進行聲畫同步分析,全面覆蓋會議記錄、短視頻創作、播客製作等場景——立即開始免費試用吧!

在线声音转文字免费声音转文字声音转文字转换器声音转文字 MP3声音转文字 WAV声音转文字(带时间戳)会议声音转文字Sound to Text Multi Language声音转文字字幕转换WAV为文字语音转文字在线语音转文字语音转文字转换MP3为文字语音录音转文字在线语音输入带时间戳的语音转文字实时语音转文字长音频语音转文字视频语音转文字YouTube语音转文字视频编辑语音转文字字幕语音转文字播客语音转文字采访语音转文字访谈音频转文字录音语音转文字会议语音转文字讲座语音转文字语音笔记转文字多语言语音转文字高准确度语音转文字快速语音转文字Premiere Pro 语音转文字替代方案DaVinci 语音转文字替代方案VEED 语音转文字替代方案InVideo 语音转文字替代方案Otter.ai 语音转文字替代方案Descript 语音转文字替代方案Trint 语音转文字替代方案Rev 语音转文字替代方案Sonix 语音转文字替代方案Happy Scribe 语音转文字替代方案Zoom 语音转文字替代方案Google Meet 语音转文字替代方案Microsoft Teams 语音转文字替代方案Fireflies.ai 语音转文字替代方案Fathom 语音转文字替代方案FlexClip 语音转文字替代方案Kapwing 语音转文字替代方案Canva 语音转文字替代方案长音频语音转文字AI语音转文字免费语音转文字无广告语音转文字噪音音频语音转文字带时间戳的语音转文字从音频生成字幕播客转录在线转录客户通话TikTok语音转文字TikTok音频转文字YouTube语音转文字YouTube音频转文字语音备忘录转文字WhatsApp语音消息转文字Telegram语音转文字Discord通话转录Twitch语音转文字Skype语音转文字Messenger语音转文字LINE语音消息转文字Vlog转录转文字讲道音频转文字语音转文字音频转文字语音笔记转文字语音输入会议语音输入YouTube语音输入说话打字免提打字语音转文字语音转文字在线语音转文字Online Transcription Software会议语音转文字快速语音转文字Real Time Speech to TextLive Transcription AppTikTok语音转文字TikTok音频转文字说话转文字语音转文字Talk to Text FreeTalk to Text OnlineTalk to Text for YouTubeTalk to Text for SubtitlesTalk to Text for Content CreatorsTalk to Text for Meetings音频转文字声音转文字语音写作工具语音写作工具语音听写法律转录工具医疗语音听写工具日语音频转录韩语会议转录会议转录工具会议音频转文字讲座转文字转换器讲座音频转文字视频转文字转录TikTok字幕生成器呼叫中心转录Reels音频转文字工具MP3转录为文字WAV文件转录为文字CapCut语音转文字CapCut语音转文字英语语音转文字英语音频转文字西班牙语语音转文字法语语音转文字法语音频转文字德语语音转文字德语音频转文字日语语音转文字日语音频转文字韩语语音转文字韩语音频转文字葡萄牙语语音转文字阿拉伯语语音转文字中文语音转文字印地语语音转文字俄语语音转文字网页语音输入工具语音输入网站