我想创建一个应用程序,记录您对麦克风所说的内容并提取所有单词。
我知道这是许多公司和个人正在努力解决的问题,但我不确定我们在开发擅长此处的工具方面有多远。
此外,是否有任何公开的工具可以实现这一目标?我希望有一个由Google智能助理,Apple Siri提供的API或我可以通过上传音频剪辑然后获取所说的话来使用的东西。
答案 0 :(得分:2)
虽然Google确实有Google Assistant SDK,但主要目的是从您的软件或设备发送音频并从智能助理接收音频响应 - 就像您在Google Home上获得的那样。同样地,Actions on Google旨在处理所有自然语言处理(NLP)并给你一个回复 - 不是为了给你准确的说法(虽然这是副作用)。
这听起来更像是你想要Cloud Speech API这是一个语音到文本(STT)系统。您可能希望将其与Cloud Natural Language API之类的内容结合起来,然后可以从生成的文本中解析含义。
答案 1 :(得分:1)
Microsoft拥有Bing Speech API用于处理音频并提取所说的单词。
他们还有Custom Speech Service和Speaker Recognition API
自定义语音服务用于克服语音识别障碍,例如说话风格,词汇和背景噪音。
可用的help docs and samples是一个很好的起点。