我在我的应用程序中使用开放式耳朵进行语音识别。主要关注的是准确性。在安静的环境中,准确度大约为50%,但在嘈杂的环境中情况会变得更糟。几乎没有任何东西被正确识别。我目前正在使用大约300字的字典文件。我应该寻求哪些方面来提高准确性?到目前为止,我还没有对此做过任何调整。
答案 0 :(得分:17)
语音识别应用程序的设计要求您了解语音识别背后的一些基本概念,如声学模型,语法和语音字典。您可以从CMUSphinx教程http://cmusphinx.sourceforge.net/wiki/tutorial
中了解更多信息准确性差是语音应用程序开发的正常状态,有一个过程可用于改进它并使应用程序有用。该过程如下:
收集您要识别的语音样本,并创建一个语音数据库来衡量当前的准确度并了解其背后的问题
尝试使用词汇量大小以改善不同之间的分离 语音提示。例如,10个命令的词汇表比300个命令的词汇表更容易识别。
按照要识别的变体数量较少的方式设计应用程序 人们的答案很简单。这项活动被称为VUI(语音用户界面设计),它是一个相当大的领域,有许多精彩的书籍和博客文章。您可以在此处找到一些详细信息:http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
尝试改善应用程序的声学部分。修改字典以匹配您的语音。调整声学模型以匹配声学特性。有关声学模型适应过程的描述,请参阅http://cmusphinx.sourceforge.net/wiki/tutorialadapt。