应用错误收集

“语音触发”检测

时间：2009-05-23 17:03:20

标签： speech-recognition signal-processing voice voice-recording

如果有能力使用“触发词”开始录制音频，我的语音应用程序会得到很大改善。我不需要一个完整的语音文本引擎，只需要能够可靠/有效地检测触发词。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者是否有任何库/方法来开发这样的单用途检测引擎。理想情况下，我希望它能在嘈杂的环境中工作，但它可以针对单个用户的声音进行训练。

研究论文/主题的指针也将受到赞赏，因此我知道该要求什么。

5 个答案:

答案 0 :(得分：2)

我的一位同事在Red5项目中使用触发词创建了一个类似的演示，以使搜索针对图像存储库运行。说“猫”导致猫的图像出现在大约一秒钟内。客户端应用程序是用Flash编写的，后端使用免费的Sphinx库在Red5上运行。你可以毫不费力地用Sphinx做你想做的事。
狮身人面像项目：http://cmusphinx.sourceforge.net/sphinx4/

答案 1 :(得分：1)

好吧，我可以完全关闭，但使用功能齐全的语音识别库可能对你的用例来说太过分了。

如果您能够使用更简单但仍然是音频驱动的东西，请考虑以下事项：

检测手拍非常简单。手拍将在整个音频带上具有高能量。检测它比简单的语音识别更简单，也更便宜。

简而言之，您可以录制音频，对数据执行（短时间）FFT，并检测80％可用频率箱中具有高能量的情况。由于简单的录音室/麦克风设置，80％可以处理任何阶段性问题。然后调整thresold品尝，你就完成了。

也可以进行语音识别，但是你会烧掉吨的CPU周期。

答案 2 :(得分：0)

O / S是什么？我想知道Speech functionality in Windows Vista是否会对你有所帮助。识别单个单词似乎是任何语音分析器最简单的问题。

答案 3 :(得分：0)

几天前有人问过a question有关Linux语音识别的可能性。您要求的是其中的一部分，我假设其中一些答案可能包含有用的信息。在joeforker的回答中链接的文章非常有趣。

答案 4 :(得分：0)

我有一个录音win32应用程序。我使用OCX来管理录制/播放。

我知道这不是你要求的解决方案，但你可能想要考虑一个脚踏板。编程很简单，非常像开头/停止录音的口语。请查看以下内容：www.pedalpower.com

希望它有所帮助，

雷纳尔多。