应用错误收集

在尝试用混合俄语和阿拉伯语的语音实现语音识别系统时，我遇到了一些问题。当使用15分钟的扬声器语音来调整声学模型时，误差百分比过高（它从6-10个单词中识别出正确的1）。我做了什么：我把阿拉伯语单词用俄语翻译成了俄语字典。我从ru4sphinx项目尝试了旧模型msu_ru_zero.cd_cont_2000 来自cmusphinx-ru-5.2的新版本（俄罗斯最新声学模型）此刻的语言）。我使用了我从我的研究领域的文本中制作的字典和语言模型。在俄语中，utf-8中有近200MB的文本。但只有一小部分阿拉伯术语出现在这本词典中。

只有少数（4个来自40个）音轨适应失败，“音频对齐转录”，其他音频无错误。同样在bw命令使用后的报告中，有220个声音不在适应音轨中。

如何降低此混音语言的错误率？或者我需要从头开始为这个1音箱创建声学模型？我根本不需要转录阿拉伯语，只是俄语，如果阿拉伯语会默认一些常用术语（如-unk-），它也会很好。

从头开始创建声学模型或适应现有的声学模型

1 个答案: