我正在使用Assistant SDK中的python库通过gRPC进行语音识别。我将语音识别并作为字符串返回,从resp.result.spoken_request_text
调用方法\googlesamples\assistant\__main__.py
,我将答案作为来自助手API的音频流,方法resp.audio_out.audio_data
也来自{{1} }}
我想知道是否可以将服务的答案作为字符串(希望它在服务定义中可用或者可以包含它),以及我如何访问/请求答案作为字符串。
提前致谢。
答案 0 :(得分:5)
目前(助理SDK开发人员预览版1),没有直接的方法可以做到这一点。您可以将音频流提供给语音到文本系统,但这真的开始变得愚蠢。
在谷歌I / O上向工程师讲述这个问题时,他们表示他们在这方面有一些技术上的复杂性,但他们了解用例。他们需要看到这样的问题才能知道人们想要这个功能。
希望它能够成为即将推出的开发者预览版。
答案 1 :(得分:0)
更新:针对
google.assistant.embedded.v1alpha2
辅助SDK包含字段supplemental_display_text
旨在将辅助响应提取为有助于文本的文本 用户的理解
或显示在屏幕上。仍使文本可供开发人员使用。 Goolge assistant documentation