我正在寻找针对嵌入式设备的语音相关语音识别解决方案的解决方案。我看过pocketphinx,但因为我还不熟悉它,我想也许有经验的人可能会知道。是否可以使用pocketsphinx来实现这样的语音识别。它应该记录音频,提取其特征,然后将其与所说的任何内容相匹配,而不是使用声学和语言模型。是否可以使用pocketsphinx实现此流程?如果不是,有人能指出我正确的方向来解决这个问题吗? 谢谢。
答案 0 :(得分:1)
是否可以使用pocketsphinx来实现这样的语音识别。
在pocketsphinx API中没有这样的功能
您可以做的是首先使用sphinxbase提取MFC系数,例如参见sphinx_fe源。
然后您可以应用DTW算法来比较录音。 DTW实现非常简单,它只有50行代码:
http://en.wikipedia.org/wiki/Dynamic_time_warping
也有很少的库可以实现DTW,您可以在维基百科页面上找到这些链接。
很高兴看到pocketphinx补丁演示了DTW的实现。