javascript中如何实现语音识别？_javascript的Web Speech API如何使用？

admin 百科 2025-12-15 21

JavaScript语音识别主要依靠Web Speech API的SpeechRecognition接口，需在HTTPS环境及用户手势触发下初始化并启动，支持实时语音转文字，但Safari不支持。

javascript中如何实现语音识别？_javascript的Web Speech API如何使用？-第1张图片-佛山资讯网

JavaScript 中实现语音识别主要靠浏览器原生支持的 Web Speech API，特别是其中的 SpeechRecognition 接口（目前在 Chrome、Edge 等 Chromium 内核浏览器中稳定可用，Firefox 有部分支持但需手动启用，Safari 尚未支持）。它无需第三方 SDK 或后端服务，纯前端即可完成实时语音转文字。

如何初始化并启动语音识别

SpeechRecognition 构造函数创建识别实例，调用 start() 开始监听麦克风。注意：必须在用户手势（如点击）触发下才能启动，否则会被浏览器阻止。

先检测浏览器兼容性：const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;
创建实例：const recognition = new SpeechRecognition();
设置关键选项：recognition.continuous = false;（单次识别），recognition.lang = 'zh-CN';（中文识别），recognition.interimResults = true;（返回中间结果）
绑定事件：onresult 捕获识别文本，onerror 处理权限拒绝或网络错误，onend 在识别结束时自动触发

如何获取并处理识别结果

event.results 是一个类似二维数组的对象，results[i] 是第 i 次识别的备选结果，每个结果含 transcript（文本）和 confidence（置信度）。最常用的是取 results[0][0].transcript 获取主结果。

完整示例逻辑：recognition.addEventListener('result', event => { const transcript = event.results[0][0].transcript; console.log('识别到：', transcript); });
区分最终结果与临时结果：通过 event.results[0].isFinal 判断是否为最终确认文本
可结合 interimResults = true 实现“边说边显示”，适合搜索框或听写场景