text - 如何在Microsoft认知服务中训练自定义语音模型

我正在通过语音转文本进行POC。 我需要识别诸如“ D-STUM”之类的特定单词（每日站立会议）。问题是，每次我告诉程序识别“ D-STUM”时，我都会得到“命运”，“此主题”等。

我已经进入了Speech.microsoft.com/.../customspeech，并且我已经录制了大约40个wav文件，这些文件中有人说“ D-STUM” 。我还创建了一个名为“ trans.txt”的文件，其中包含每个wav文件，每个文件后均带有单词“ D-STUM”。像这样： D_stum_1.wav D-STUM D_stum_2.wav D-STUM D_stum_3.wav D-STUM D_stum_4.wav D-STUM ...

然后，我上传了一个包含wav文件和trans.txt文件的zip文件，使用这些数据训练了一个模型，并创建了一个端点。我在我的软件上引用了此端点，并启动了它。

我希望我的自定义语音转文本功能能够识别人们说“ D-STUM”并显示“ D-STUM”作为文本。自定义模型后，我再也没有显示过“ D-STUM”。

我做错了吗？这是进行定制培训的正确方法吗？ 40个样本不足以正确训练模型吗？

谢谢您的回答。

如何在Microsoft认知服务中训练自定义语音模型

1 个答案: