Google语音流识别慢响应时间

时间:2018-09-17 07:38:34

标签: google-cloud-platform speech-recognition speech-to-text google-speech-api

使用流音频数据,Google Speech API最快的预期响应时间是多少?我正在向API发送音频流,并收到2000ms延迟的中间结果,我希望可以将其降至1000ms以下。我测试了不同的采样率和不同的语音模型。

3 个答案:

答案 0 :(得分:0)

如果您真的在乎响应时间,则最好在自己的基础架构上使用基于Kaldi的服务。 https://github.com/alumae/kaldi-gstreamer-serverhttps://github.com/Kaljurand/dictate.js

答案 1 :(得分:0)

由于服务的性质,恐怕无法衡量或保证响应时间。我们不知道该怎么做,实际上,即使有SLA for availability,也没有响应时间的SLA。

正在帮助您建立良好的请求的事物:

    例如,减少100毫秒的帧大小可以确保在延迟和效率之间取得良好的平衡。
  1. 遵循Best Practices将帮助您发出干净的请求,从而可以减少延迟。

您可能要检查有关特定用例的以下链接,以了解它们如何解决延迟问题:

答案 2 :(得分:0)

Google Cloud Speech本身运行起来非常快,您可以检查麦克风https://cloud.google.com/speech-to-text/的转录速度。

您可能会遇到缓冲问题,正在使用的工具可能会在将数据发送(缓冲刷新)到基础设备(流)之前缓冲数据。

您可以找到如何将该工具的输出缓冲区减小到较低的值,例如2Kb,因此数据将更快地到达Node应用程序和Google服务。 Google建议发送等于100ms缓冲区大小的数据。