现在我正在使用语音制作字典应用程序。我制作了这本词典,大约有100000个单词作为数据库。需要通过语音搜索该词典。为此,我使用Sphinx4 / cmusphinx作为工具。我已阅读相关网站的参考资料并成功运行申请样本。然后我在这个示例(HelloWorld)中将相同的方法实现到我的字典中。以前,我已经在语法(.gram)中放了100000个单词。当我尝试运行它时,我的字典变得冻结,5分钟后,eclipse显示" Java堆大小超出内存"
语法配置
#JSGF V1.0;
grammar hello;
public <database> = ([<Words>])*;
<Words>= 100000 words split by "|"
对于sphinx4,我使用的是此版本http://sourceforge.net/projects/cmusphinx/files/sphinx4/1.0%20beta6/
我的方法在我的词典中实现语音是否正确?
对于使用大型单词数据库(大约100000字)构建此类搜索引擎,是否有任何好的参考资料?
希望你能帮助我。
答案 0 :(得分:0)
方法还可以。
如果JVM没有足够的内存,可以使用-Xmx选项
增加内存为了准确检索,最好使用单词的频率创建单字组语言模型,而不仅仅是普通列表。详见
http://cmusphinx.sourceforge.net/wiki/tutoriallm
为了获得最佳准确度,最好使用最新的高级API,有关详细信息,请参阅