在尝试用混合俄语和阿拉伯语的语音实现语音识别系统时,我遇到了一些问题。 当使用15分钟的扬声器语音来调整声学模型时,误差百分比过高(它从6-10个单词中识别出正确的1)。 我做了什么: 我把阿拉伯语单词用俄语翻译成了俄语 字典。 我从ru4sphinx项目尝试了旧模型msu_ru_zero.cd_cont_2000 来自cmusphinx-ru-5.2的新版本(俄罗斯最新声学模型) 此刻的语言)。 我使用了我从我的研究领域的文本中制作的字典和语言模型。在俄语中,utf-8中有近200MB的文本。但只有一小部分阿拉伯术语出现在这本词典中。
只有少数(4个来自40个)音轨适应失败,“音频对齐转录”,其他音频无错误。 同样在bw命令使用后的报告中,有220个声音不在适应音轨中。
如何降低此混音语言的错误率? 或者我需要从头开始为这个1音箱创建声学模型? 我根本不需要转录阿拉伯语,只是俄语,如果阿拉伯语会默认一些常用术语(如-unk-),它也会很好。
答案 0 :(得分:0)
我在字典中发现了这个问题。
这是因为
text2wfreq <lmbase.txt | wfreq2vocab
命令。
在我使用wfreq2vocab
默认参数之前,我的词典被截断为最常见的20,000个单词。在我的起始词汇中,有超过200K的单词。 wfreq2vocab
有-top
参数,所以-top 400000对我有用(它不会过滤单词,现在只创建词汇)
第二 - 现在我正在使用MAP改编而不是mllr。
有30分钟的改编音频,它显示了50-75%的正确单词。