是否有可能对Google Cloud Speech的整个输入音频进行最佳猜测?

时间:2017-09-04 12:50:26

标签: google-cloud-speech

我们遇到了一个问题,试图将谷歌云语音(GCS)用于音频索引目的。我们尝试了两种不同的设置:

  1. 包含多个扬声器的单个音频文件(仅限高信噪比 语音+沉默)被发送到GCS。
  2. 将音频文件拆分为单独的扬声器,这些段连接起来, 每个发言者一个音频文件被发送到GCS。
  3. 问题在于,无论设置如何(上面的1或2),语音的大部分(~22%)都没有得到任何输出假设。

    The documentation声明“如果Speech API确定备选方案具有足够的置信度值,则该备选方案将包含在响应中。”这对于最佳假设也是如此(只有在信心足够高的情况下才包含它) - 这就是为什么缺少部分演讲的原因?

    根据标题的实际问题:是否有可能对来自Google Cloud Speech的整个输入音频进行最佳猜测?

0 个答案:

没有答案