将Bing Speeh发送到Text API的最大音频文件长度(持续时间)应该是多少?

时间:2017-12-04 06:38:24

标签: microsoft-cognitive bing-speech

我已提到this documentation。 他们在使用客户端库进行语音到文本时提到了“长音频流(最长10分钟)”。

语音到文本是否接受大于10分钟的音频文件? 如果我们传递音频文件将会发生什么? 10分钟?

在我的用例中,我需要传递大于30分钟的音频文件。那么我们要为这些情况做些什么呢?

1 个答案:

答案 0 :(得分:0)

您可以使用ffmpeg以编程方式拆分较长的音频流,并将这些块传递给此客户端库。您可以选中此选项以编程方式将长音频流划分为时间指定的块:https://superuser.com/questions/525210/splitting-an-audio-file-into-chunks-of-a-specified-length

然后,您可以合并这些块中的文本以获取整个文本。不是最干净的方式 - 而是可以扩展的东西。