微软认知说话人识别的准确程度

时间:2016-12-15 14:37:13

标签: microsoft-cognitive

我正在尝试使用Microsoft Cognitive Speaker Identification Service构建应用程序。但是当我使用它的api检查它时,某些音频无法正确识别。我想知道服务的准确程度是多少。有没有办法改善它。

2 个答案:

答案 0 :(得分:1)

有各种因素会影响识别的准确性,例如:噪音水平,麦克风质量,回声等。

为了提高您的情况,您可以确保录音音频的录制条件与测试音频相同(例如相同的麦克风),并尝试确保录制在安静的环境中完成。

答案 1 :(得分:0)

它确实可以在多个用户中使用,并且可以在不同的PC /麦克风上试用。

我会确保:

  • 它在一个安静的房间/环境中
  • 您正在正确发送音频...(这只是字节数组数据,没有其他编码。) 还要检查标题MediaTypeHeaderValue / content类型,即使我们发送了wav文件,所有请求似乎都是'application / json'。
  • 在将用户映射到蔚蓝的Guid时要小心,并确保使用正确的指南。如果您使用SDK而不是API进行概要文件的创建和注册,那么目前没有按ID进行概要文件的重新整理,我已经采取了一种变通方法,以重新创建概要文件,并在注册之前更新数据库中的ID。 (尽管API不需要)
  • 还要确保您使用的是最新的API,(网址结尾为... / speaker / verification / v2.0 /等。SDK中某些与文本无关的功能仅适用于V2,并且可能由于验证失败而导致V2根据验证方法将配置文件存储在3个不同的位置。
  • 还要检查配置文件是使用您用于验证的相同验证方法创建/注册的。如果不确定,请尝试使用新的配置文件。