我们遇到了一个问题,试图将谷歌云语音(GCS)用于音频索引目的。我们尝试了两种不同的设置:
问题在于,无论设置如何(上面的1或2),语音的大部分(~22%)都没有得到任何输出假设。
The documentation声明“如果Speech API确定备选方案具有足够的置信度值,则该备选方案将包含在响应中。”这对于最佳假设也是如此(只有在信心足够高的情况下才包含它) - 这就是为什么缺少部分演讲的原因?
根据标题的实际问题:是否有可能对来自Google Cloud Speech的整个输入音频进行最佳猜测?