使用流音频数据,Google Speech API最快的预期响应时间是多少?我正在向API发送音频流,并收到2000ms延迟的中间结果,我希望可以将其降至1000ms以下。我测试了不同的采样率和不同的语音模型。
答案 0 :(得分:0)
如果您真的在乎响应时间,则最好在自己的基础架构上使用基于Kaldi的服务。 https://github.com/alumae/kaldi-gstreamer-server和https://github.com/Kaljurand/dictate.js
答案 1 :(得分:0)
由于服务的性质,恐怕无法衡量或保证响应时间。我们不知道该怎么做,实际上,即使有SLA for availability,也没有响应时间的SLA。
正在帮助您建立良好的请求的事物:
您可能要检查有关特定用例的以下链接,以了解它们如何解决延迟问题:
答案 2 :(得分:0)
Google Cloud Speech本身运行起来非常快,您可以检查麦克风https://cloud.google.com/speech-to-text/的转录速度。
您可能会遇到缓冲问题,正在使用的工具可能会在将数据发送(缓冲刷新)到基础设备(流)之前缓冲数据。
您可以找到如何将该工具的输出缓冲区减小到较低的值,例如2Kb,因此数据将更快地到达Node应用程序和Google服务。 Google建议发送等于100ms缓冲区大小的数据。