Question

现在我正在使用语音制作字典应用程序。我制作了这本词典，大约有100000个单词作为数据库。需要通过语音搜索该词典。为此，我使用Sphinx4 / cmusphinx作为工具。我已阅读相关网站的参考资料并成功运行申请样本。然后我在这个示例（HelloWorld）中将相同的方法实现到我的字典中。以前，我已经在语法（.gram）中放了100000个单词。当我尝试运行它时，我的字典变得冻结，5分钟后，eclipse显示＆＃34; Java堆大小超出内存＆＃34;

语法配置

#JSGF V1.0;
grammar hello;
public <database> = ([<Words>])*;
<Words>= 100000 words split by "|"

对于sphinx4，我使用的是此版本http://sourceforge.net/projects/cmusphinx/files/sphinx4/1.0%20beta6/

我的方法在我的词典中实现语音是否正确？

对于使用大型单词数据库（大约100000字）构建此类搜索引擎，是否有任何好的参考资料？

希望你能帮助我。

Answer 1

方法还可以。

如果JVM没有足够的内存，可以使用-Xmx选项

增加内存

为了准确检索，最好使用单词的频率创建单字组语言模型，而不仅仅是普通列表。详见

http://cmusphinx.sourceforge.net/wiki/tutoriallm

为了获得最佳准确度，最好使用最新的高级API，有关详细信息，请参阅

http://cmusphinx.sourceforge.net/wiki/sphinx4

使用Sphinx4从数据库中检索

1 个答案: