标签: audio google-cloud-platform speech-to-text google-speech-api
我希望能够从电话音频流中提取一个人的话语。电话音频被路由到我的服务器,然后我的服务器创建一个流识别请求。如何判断一个单词是完整发音中的一部分还是当前正在转录中的一部分?我应该比较单词之间的时间戳吗?即使流式电话音频在一定时间内没有语音,API仍会继续返回临时结果吗?如何超过1分钟的流音频限制?