沃森语音2文本滞后于密集的笔录

时间:2019-02-07 20:58:58

标签: text-to-speech ibm-watson

使用Watson s2t服务捕获短笔录已经取得了成功。但是一个新项目要求我们录制长而密集的音频流,并且发声之间几乎没有间断。这似乎导致不平凡的延迟不断累积。例如,在早期测试中,典型的2分钟音频流被解析为滞后30秒以上的4-6个转录本(对于简短的语音,它运行数百毫秒,并且永远不会落后)。音频中的一段沉默期似乎可以使服务恢复正常。

问题:是否有减轻这种行为的方法?也许可以缩短笔录间的间隔(在服务器端似乎硬编码为500毫秒)?

我们的原型是用Java编写的,并使用WebSockets。

-rg

0 个答案:

没有答案