我们遇到了问题 (1)谷歌云语音api (2)Google Chrome语音api - 免费版
以下是观察和问题 a)免费版(选项2)显示比云语音api(选项1)更高的准确性。为什么结果不同?
(b)免费版本的结果不一致且不确定。例如,我们观察到如果2个人说得质量好,那么只会翻译一个人的演讲。所有说出的单词都可能在文本中,也可能不在文本中。
(c)观察到许多因素决定了语音质量 - >人的冷静,良好的氛围,握住麦克风/耳塞的角度,没有背景噪音。但实时这一切都是不可能的 - 我们如何对文本进行确定性的演讲? 现实世界将是混乱的。(d)为获得最佳最佳结果,采样率设置为44000Hz(44Khz)。但据观察,部分电脑有44Khz或笔记本电脑有48000Hz(48Khz)。是否可以在44Khz标准化(请确认)
(e)对于手机IVR,即使我们清晰地说话,也会注意到 - 重播回来 - 仍然谷歌api无法翻译 - 有时这有效 - 为什么会这样?注意我们已经看到了IVR wav文件@ 8Khz。
(f)免费版本(选项2)可以在REST Post中创建没有实际wav文件的音频流,但云语音api(选项1)不提供相同的功能
(g)如果只说几个单词(1或2个单词)语音文本失败,它可能只有在我们说至少5-10个单词时才有用,其中至少2-3个单词被错误地翻译发短信。
请帮助。