我正在尝试使用Microsoft认知说话人识别API构建一个解决说话人日记问题的应用程序。
查看sample project并阅读APIs documentation,我明白应该在向服务发送wav文件时进行识别,这违背了我实时做的目标。
有人做过一些研究吗?使用这些API是否可行,或者我应该寻找另一条道路?
答案 0 :(得分:1)
注册需要30秒的数据。拥有用户配置文件后,您可以从1秒样本中识别用户,这样您几乎可以在非常小的延迟下实时完成。要使用此功能,您需要设置shortAudio parameter。很难想象识别工作比这更快。
如果您需要不同的东西,可以使用Kaldi之类的开源语音工具包,它们可以做更灵活的事情。
答案 1 :(得分:0)
没有流式方法,就像Google使用Speech API一样。要注册新的个人资料,不需要30秒。在我最近的练习中 - 我的成功结果约为10秒。 MS API的核心问题是多个扬声器的限制。你必须找到自己的方式如何将它们分成单独的音轨。否则它将识别出第一个已知的声音。