如何在iPhone中进行中文语音识别

时间:2011-08-01 06:13:24

标签: iphone speech-recognition openears cmusphinx

OpenEars可以进行中文语音识别吗?见这里:http://www.politepix.com/openears

1 个答案:

答案 0 :(得分:6)

我是OpenEars开发人员。 OpenEars只能开箱即用地进行英语语音识别。 OpenEars使用的Pocketsphinx发行版中有一个普通话声学模型,因此可能可以在说明书中将其替换为英语声学模型,如果你有自己的声音模型创建兼容的语言模型和语音字典的方法,你可以做一些自我导向的研究和测试。声学模型称为tdt_sc_8k。您可以使用它而不是名为hub4wsj_sc_8k的说明中的文件夹,但是还需要做更多工作才能使其正常工作。

如果您想尝试这一点,您需要阅读CMU语音网站上的Sphinx project documentation,以便清楚地了解声学模型,语言模型和语音词典之间的关系,并弄清楚如何创建兼容的语言模型。您可以从this page上的语音词典开始作为主词典,您可以创建较小的iPhone大小的语音词典和随后的语言模型,因为它可能与声学模型兼容。该页面上的语言模型对于OpenEars来说太大了。为了测试,我可能会创建一个大约100个单词的命令和控制模型。您应该能够使用Sphinx Knowledge Base Tool从您已经制作了语音词典的单词语料库中创建语言模型。

下一步是验证您的声学模型,语言模型和语音字典是否已知 - 在传统的Pocketsphinx安装中工作,例如在Linux上。如果你得到了很好的结果,你可以来OpenEars论坛,我会尝试帮助你让它在OpenEars中工作(由于声学模型从未参与测试,我无法保证,但我也可以'我想到一个特殊的原因,它不会起作用)。 OpenEars的LanguageModelGenerator类肯定只能用于英语。您有责任确保声学模型的许可方式不会妨碍其在App Store应用程序中使用,如果您计划分发项目的方式。

祝你好运!

编辑:我想更新此内容,以便让您知道普通话声学模型现在是OpenEarsExtras的一部分,并且说LanguageModelGenerator现在已经更新,以便您可以提供它是你选择的任意主语音词典,如果你有一个正确的格式(也就是说,后跟一个标签后跟一个音符后面跟一个换行符,字母顺序排列),这样可以更容易地使用动态语言如果您已有声学模型,则使用非英语语言的建模器。

它应该工作的方式是你有一个你想要的语言的查找字典类似于cmu07a.dic是默认的英文查找字典,而LanguageModelGenerator处理其余的,所以我的声明需要多个如果您有一个可以查找发音的语音字典,则步骤和研究不一定是这种情况。在OpenEars forum非常感谢您在实践中对您如何运作的反馈(请不要在Stack Overflow上提供反馈或错误报告)。