如果有能力使用“触发词”开始录制音频,我的语音应用程序会得到很大改善。我不需要一个完整的语音文本引擎,只需要能够可靠/有效地检测触发词。
我想知道是否有任何专门的语音引擎支持这个特定的用例,或者是否有任何库/方法来开发这样的单用途检测引擎。理想情况下,我希望它能在嘈杂的环境中工作,但它可以针对单个用户的声音进行训练。
研究论文/主题的指针也将受到赞赏,因此我知道该要求什么。
答案 0 :(得分:2)
我的一位同事在Red5项目中使用触发词创建了一个类似的演示,以使搜索针对图像存储库运行。说“猫”导致猫的图像出现在大约一秒钟内。客户端应用程序是用Flash编写的,后端使用免费的Sphinx库在Red5上运行。你可以毫不费力地用Sphinx做你想做的事。
狮身人面像项目:http://cmusphinx.sourceforge.net/sphinx4/
答案 1 :(得分:1)
好吧,我可以完全关闭,但使用功能齐全的语音识别库可能对你的用例来说太过分了。
如果您能够使用更简单但仍然是音频驱动的东西,请考虑以下事项:
检测手拍非常简单。手拍将在整个音频带上具有高能量。检测它比简单的语音识别更简单,也更便宜。
简而言之,您可以录制音频,对数据执行(短时间)FFT,并检测80%可用频率箱中具有高能量的情况。由于简单的录音室/麦克风设置,80%可以处理任何阶段性问题。然后调整thresold品尝,你就完成了。
也可以进行语音识别,但是你会烧掉吨的CPU周期。
答案 2 :(得分:0)
O / S是什么?我想知道Speech functionality in Windows Vista是否会对你有所帮助。识别单个单词似乎是任何语音分析器最简单的问题。
答案 3 :(得分:0)
几天前有人问过a question有关Linux语音识别的可能性。您要求的是其中的一部分,我假设其中一些答案可能包含有用的信息。在joeforker的回答中链接的文章非常有趣。
答案 4 :(得分:0)
我有一个录音win32应用程序。我使用OCX来管理录制/播放。
我知道这不是你要求的解决方案,但你可能想要考虑一个脚踏板。编程很简单,非常像开头/停止录音的口语。请查看以下内容:www.pedalpower.com
希望它有所帮助,
雷纳尔多。