(连续)语音识别Web浏览器中的有限单词

时间:2011-10-08 12:11:30

标签: web speech-recognition

是否有语音识别解决方案

  • 只有几句话(2个就够了,10个会很酷.100个很棒。不需要更多)
  • 也可以在移动浏览器上运行(是否可以使用闪存(而不是java)?)
  • 可以安装在您自己的服务器上。最好使用PHP + MySQL(如果需要服务器端代码)

我尝试过搜索,但我只找到了实际的转录服务(例如Android版Google语音搜索)。

2 个答案:

答案 0 :(得分:1)

现在你甚至不需要服务器来运行语音识别,你只需要一个支持Web Audio API的浏览器(最近的firefox和chrome都支持它)。现在可以在浏览器中使用javascript执行CMUSphinx。

有关详细信息,请参阅

https://github.com/syl22-00/pocketsphinx.js

http://cmusphinx.sourceforge.net/2013/06/voice-enable-your-website-with-cmusphinx/

答案 1 :(得分:1)

这种解决方案的一个例子是touchless-timer,它基于pocketsphinx.js(在Nikolay Shmyrev的帖子中也提到过)。回答你的要点:

  • 它支持一个简单的闹钟语法,大约60个单词(短语如“在五分钟内叫醒我”);
  • 我设法在Chrome Beta 32.0.1700.99 Android 4.1.2(三星Galaxy S2)上运行它,它需要一个现代的Javascript引擎,但不需要Flash;
  • 它不需要服务器,因为语音识别是在Javascript中离线完成的,并且可以使用ApplicationCache缓存所有必需的文件。

对于这个应用程序,语法是用Grammatical Framework编写的,并自动转换为pocketsphinx.js所需的有限状态模型和字典。对于简单的“MP3播放/暂停”语法,您可以直接轻松编写FSA。

这个应用程序中的英语声学模型不是很好,即他们可能会被后台播放的MP3搞糊涂。您可以通过培训更好的模型来改进。但是,更好的模型可能更大(例如,Javascript中大于20 MB)并且不再适合内存或只是使应用程序运行/加载非常缓慢。

在移动设备上运行的应用的屏幕截图:

Screenshot of Timer running on a smartphone