我正在开发一款基于语音的人工智能的iOS应用程序;即它意味着从麦克风接收语音输入,将其转换为文本,将其发送到AI代理,然后通过扬声器输出返回的文本。我已经完成了所有工作,但是使用按钮开始和停止录制语音(用于语音识别的SpeechKit,用于AI的API.AI,用于输出的Amazon和Polly)。
我需要的是让麦克风始终打开,并在用户开始和结束谈话时自动开始和停止录制用户的声音。这个应用程序是针对非正统的环境开发的,用户无法访问屏幕(但是他们将有一个用于录制文本的高端霰弹枪麦克风)。
我的研究表明,这部分拼图被称为“语音活动检测”'并且似乎是整个基于语音的AI系统中最艰难的步骤之一。
我希望有人可以提供一些简单的(Swift)代码来自己实现,或者指出我可以在这个项目中实现的一些像样的库/ SDK。