从头开始创建声学模型或适应现有的声学模型

时间:2017-01-10 12:21:44

标签: speech-recognition cmusphinx pocketsphinx

在尝试用混合俄语和阿拉伯语的语音实现语音识别系统时,我遇到了一些问题。 当使用15分钟的扬声器语音来调整声学模型时,误差百分比过高(它从6-10个单词中识别出正确的1)。 我做了什么:  我把阿拉伯语单词用俄语翻译成了俄语     字典。  我从ru4sphinx项目尝试了旧模型msu_ru_zero.cd_cont_2000     来自cmusphinx-ru-5.2的新版本(俄罗斯最新声学模型)     此刻的语言)。  我使用了我从我的研究领域的文本中制作的字典和语言模型。在俄语中,utf-8中有近200MB的文本。但只有一小部分阿拉伯术语出现在这本词典中。

只有少数(4个来自40个)音轨适应失败,“音频对齐转录”,其他音频无错误。 同样在bw命令使用后的报告中,有220个声音不在适应音轨中。

如何降低此混音语言的错误率? 或者我需要从头开始为这个1音箱创建声学模型? 我根本不需要转录阿拉伯语,只是俄语,如果阿拉伯语会默认一些常用术语(如-unk-),它也会很好。

1 个答案:

答案 0 :(得分:0)

我在字典中发现了这个问题。 这是因为 text2wfreq <lmbase.txt | wfreq2vocab 命令。 在我使用wfreq2vocab默认参数之前,我的词典被截断为最常见的20,000个单词。在我的起始词汇中,有超过200K的单词。 wfreq2vocab-top参数,所以-top 400000对我有用(它不会过滤单词,现在只创建词汇)

第二 - 现在我正在使用MAP改编而不是mllr。

有30分钟的改编音频,它显示了50-75%的正确单词。