我使用cmusphinx进行文本对齐。我下载了最新的sphinx4,通过使用WSJ声学模型和代码附带的字典修改其中一个演示来构建文本对齐器。它确实有效,但是对于许多非常好的发音来说,简单的文本就会失败。
原因是什么?我使用的语言模型是否太有限了,我应该下载更多模型数据来提供识别器?是否有任何良好的预包装狮身人面像分布,使我免于测试不同的语言模型和配置软件?
非常感谢:)
以下是我认为重要的代码
byte[] bytes = readContentOfAOggFile();
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes);
grammar = (ResetableTextAlignGrammar) cm.lookup("textAlignGrammar");
grammar.setTextAfterAllocation(referenceText);
AudioInputStream ai = AudioSystem.getAudioInputStream(inputStream);
dataSource.setInputStream(ai, null);
dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
dataSource.setInputStream(stream, null);
result = recognizer.recognize();
请注意,此代码适用于半个单词的句子。
答案 0 :(得分:0)
原因是什么?
您需要分享您尝试获得答案的数据
我使用的语言模型是否太有限了,我应该下载更多模型数据来提供识别器?
不大可能
是否有任何良好的预包装狮身人面像分布可以帮助我避免使用不同语言模型进行测试并配置软件?
一旦分享了测试数据,就可以更容易地说出那里发生了什么。