Google Cloud Speech API实时识别

时间:2017-05-19 06:19:14

标签: python google-speech-api

我正在开发一个用于实时翻译的Python应用程序。我需要实时识别语音:当用户说出某些内容时,它会自动将此音频发送到Google Speech API并返回文本。所以我希望在发言时立即出现公认的文字。

我找到了流式语音识别,但似乎我仍然需要先录制完整的语音,然后将其发送到服务器。此外,没有关于如何在Python中使用它的示例

是否可以使用Google Speech API执行此操作?

3 个答案:

答案 0 :(得分:1)

您可以使用Google Speech API。

但是,它有1分钟的内容限制。

请查看以下链接。

https://cloud.google.com/speech/quotas

所以你必须每1分钟重启一次。

以下链接是python的麦克风流媒体示例代码。

https://cloud.google.com/speech/docs/streaming-recognize#speech-streaming-recognize-python

答案 1 :(得分:0)

检查此链接:

https://github.com/Uberi/speech_recognition/blob/master/examples/microphone_recognition.py

这是从麦克风获取音频的示例。识别过程有几个组成部分。根据我的经验,狮身人面像识别缺乏准确性。 Google语音识别功能非常出色。

答案 2 :(得分:0)

使用 Google Speech API 进行实时转录有点麻烦。您可以使用此存储库获取灵感 https://github.com/saharmor/realtime-transcription

它实时转录客户端的麦克风(免责声明:我是作者)。