微软扬声器识别api

时间:2016-11-01 10:08:49

标签: api speaker

在微软说话人识别api中,我们必须使用什么数据作为身体参数。 写作"二进制数据" 。这是否意味着我们必须将音频文件转换为二进制数据然后粘贴到那里。

enter image description here

2 个答案:

答案 0 :(得分:1)

目前,无法使用此API测试控制台发布应用程序/八位字节流或应用程序/表单数据。我相信有一些工作要做,很快就会有用。

作为替代方案,您可以使用PostManFiddler。 PostMan可能更容易使用。试一试,如果您有问题,请告诉我。

答案 1 :(得分:1)

二进制数据需要是特定格式的WAV文件:

  • 容器:WAV
  • 编码:PCM
  • 费率:16K
  • 样本格式:16位
  • 频道:Mono

您可以在这里查看一个有效的示例网页 - 我使用了recorderjs的更改副本(通过反向工程扬声器识别API示例页面进行了更改)以获得正确的比特率和样本率WAV:

https://rposbo.github.io/speaker-recognition-api/

您可以使用测试控制台,因为您可以发送base64编码的音频数据(正如官方演示页一样):

https://azure.microsoft.com/en-gb/services/cognitive-services/speaker-recognition/