应用错误收集

时间：2016-10-07 14:51:42

标签： c# .net voice-recognition microsoft-cognitive

我正在尝试使用Microsoft认知说话人识别API构建一个解决说话人日记问题的应用程序。

查看sample project并阅读APIs documentation，我明白应该在向服务发送wav文件时进行识别，这违背了我实时做的目标。

有人做过一些研究吗？使用这些API是否可行，或者我应该寻找另一条道路？

答案 0 :(得分：1)

注册需要30秒的数据。拥有用户配置文件后，您可以从1秒样本中识别用户，这样您几乎可以在非常小的延迟下实时完成。要使用此功能，您需要设置shortAudio parameter。很难想象识别工作比这更快。

如果您需要不同的东西，可以使用Kaldi之类的开源语音工具包，它们可以做更灵活的事情。

答案 1 :(得分：0)

没有流式方法，就像Google使用Speech API一样。要注册新的个人资料，不需要30秒。在我最近的练习中 - 我的成功结果约为10秒。 MS API的核心问题是多个扬声器的限制。你必须找到自己的方式如何将它们分成单独的音轨。否则它将识别出第一个已知的声音。