使用Sphinx4从数据库中检索

时间:2014-11-24 07:07:12

标签: cmusphinx sphinx4

现在我正在使用语音制作字典应用程序。我制作了这本词典,大约有100000个单词作为数据库。需要通过语音搜索该词典。为此,我使用Sphinx4 / cmusphinx作为工具。我已阅读相关网站的参考资料并成功运行申请样本。然后我在这个示例(HelloWorld)中将相同的方法实现到我的字典中。以前,我已经在语法(.gram)中放了100000个单词。当我尝试运行它时,我的字典变得冻结,5分钟后,eclipse显示" Java堆大小超出内存"

语法配置

#JSGF V1.0;
grammar hello;
public <database> = ([<Words>])*;
<Words>= 100000 words split by "|"

对于sphinx4,我使用的是此版本http://sourceforge.net/projects/cmusphinx/files/sphinx4/1.0%20beta6/

我的方法在我的词典中实现语音是否正确?

对于使用大型单词数据库(大约100000字)构建此类搜索引擎,是否有任何好的参考资料?

希望你能帮助我。

1 个答案:

答案 0 :(得分:0)

方法还可以。

如果JVM没有足够的内存,可以使用-Xmx选项

增加内存

为了准确检索,最好使用单词的频率创建单字组语言模型,而不仅仅是普通列表。详见

http://cmusphinx.sourceforge.net/wiki/tutoriallm

为了获得最佳准确度,最好使用最新的高级API,有关详细信息,请参阅

http://cmusphinx.sourceforge.net/wiki/sphinx4