如何在Microsoft认知服务中训练自定义语音模型

时间:2019-10-10 09:41:07

标签: text microsoft-cognitive speech

我正在通过语音转文本进行POC。 我需要识别诸如“ D-STUM”之类的特定单词(每日站立会议)。问题是,每次我告诉程序识别“ D-STUM”时,我都会得到“命运”,“此主题”等。

我已经进入了Speech.microsoft.com/.../customspeech,并且我已经录制了大约40个wav文件,这些文件中有人说“ D-STUM” 。我还创建了一个名为“ trans.txt”的文件,其中包含每个wav文件,每个文件后均带有单词“ D-STUM”。像这样 : D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...

然后,我上传了一个包含wav文件和trans.txt文件的zip文件,使用这些数据训练了一个模型,并创建了一个端点。我在我的软件上引用了此端点,并启动了它。

我希望我的自定义语音转文本功能能够识别人们说“ D-STUM”并显示“ D-STUM”作为文本。自定义模型后,我再也没有显示过“ D-STUM”。

我做错了吗?这是进行定制培训的正确方法吗? 40个样本不足以正确训练模型吗?

谢谢您的回答。

1 个答案:

答案 0 :(得分:0)

自定义语音有几种方法可以更好地理解特定单词:

  • 像您一样,通过提供音频样本及其转录
  • 通过提供文本示例(无音频)

根据我以前的用例,我强烈建议创建一个包含5到10个句子的训练文件,每个句子在其使用上下文中都包含“ D-STUM”。然后在文件中将这些句子重复10到20次。

它有助于我们理解特定的单词。

此外,如果您使用“ en-US”或“ de-DE”作为目标语言,则可以使用发音文件,请参见here