应用错误收集

我正在尝试音频文件中的“Bing Speech To Text API”，其中包含回答呼叫中心客户的人与呼叫呼叫中心以解决疑虑的客户之间的真实对话。因此，这些音频有两个人说话，当顾客等待支持的答案时，有时会有很长的沉默期。这些音频有5到10分钟的长度。

我怀疑是：

使用Microsoft认知服务将音频这样的音频翻译成文本的最佳方法是什么？

除了Bing Speech To Text之外，我还需要使用哪些API？

在将音频发送到Bing Speech To Text之前，我是否必须剪切或转换音频？

我问这是因为Bing Speech to text API返回的文字与音频内容非常非常不同。不可能使用或承担。但是，当然，我认为我犯了一些错误。

请你能解释一下使用这样的音频文件的最佳策略吗？

我会很高兴得到任何帮助。最好的注册，