我正在开发一个用于实时翻译的Python应用程序。我需要实时识别语音:当用户说出某些内容时,它会自动将此音频发送到Google Speech API并返回文本。所以我希望在发言时立即出现公认的文字。
我找到了流式语音识别,但似乎我仍然需要先录制完整的语音,然后将其发送到服务器。此外,没有关于如何在Python中使用它的示例
是否可以使用Google Speech API执行此操作?
答案 0 :(得分:1)
您可以使用Google Speech API。
但是,它有1分钟的内容限制。
请查看以下链接。
https://cloud.google.com/speech/quotas
所以你必须每1分钟重启一次。
以下链接是python的麦克风流媒体示例代码。
https://cloud.google.com/speech/docs/streaming-recognize#speech-streaming-recognize-python
答案 1 :(得分:0)
检查此链接:
https://github.com/Uberi/speech_recognition/blob/master/examples/microphone_recognition.py
这是从麦克风获取音频的示例。识别过程有几个组成部分。根据我的经验,狮身人面像识别缺乏准确性。 Google语音识别功能非常出色。
答案 2 :(得分:0)
使用 Google Speech API 进行实时转录有点麻烦。您可以使用此存储库获取灵感 https://github.com/saharmor/realtime-transcription
它实时转录客户端的麦克风(免责声明:我是作者)。