Microsoft自定义语音服务(CRIS)

时间:2018-01-17 11:14:12

标签: speech-recognition microsoft-cognitive

我正在使用CRIS进行POC我们正在构建一个voiceBot,并希望为动态条件和实时场景训练我们的机器人。

正如CRIS中提到的,我们可以通过构建自定义声学模型来克服背景噪声屏障,我希望实现同样的目标。

我基于~4.5小时的长度构建了2个自定义语音模型。 第一个模型基于干净的音频文件,没有背景噪音。 第二个模型基于相同的音频文件,噪音叠加在它们上面。

上下文中的语言是普通英语,没有特定的词汇。

两个模型的数据集相同,唯一的区别是第二个模型的数据集中所有文件都叠加了静态背景噪声。

我根据叠加噪音的音频文件进行了精度测试但结果很奇怪。 第二个模型给了我93%的WER&首先模拟一个100%的WER,这对我来说真的很奇怪,因为第一个模型正在训练背景噪声而不是第一个模型,理论上第二个模型应该比第一个模型给出更少的WER。

由于我无法在CRIS中看到幕后发生的事情,我想知道CRIS是否会产生有效的背景噪音或真正有效的结果,如果是,那么我做错了就像我一样尝试了多次相同的结果。

1 个答案:

答案 0 :(得分:1)

首先,93%的WER非常高,只有在听到它时几乎听不懂音频时才会发生。

我的理解是您创建了3个数据集:

  • training_1:4.5小时的干净音频
  • training_2:4.5小时的嘈杂音频
  • test_1:几分钟的嘈杂音频

我认为training_2和test_1的噪音相似。注意:您无法在training_1中添加人工噪声并在test_1中使用真实噪声。训练数据必须代表测试数据。

如果我做对了,当您使用training_1训练的模型解码test_1中的音频时,您获得93%的WER。当您使用training_2训练的模型解码test_1时,您将获得100%的WER。如果使用我们的基线模型(Microsoft Conversational Model)解码test_1,您会得到什么?您只需创建一个新的准确度测试即可获得此值。

如果您想分享更多详情和数据,请与我们联系(https://cris.ai/底部的链接)。我们可以仔细看看出了什么问题。

感谢您对自定义语音服务的关注。