我正在构建一个需要语音激活命令的网络应用。我使用getUserMedia进行音频输入。
对于语音激活命令,过程是用户需要"校准"记录他/她的演讲的命令。例如,对于"停止"命令,用户会说“"停止"然后该应用程序将保存音频片段。然后让用户发出"停止"命令,他/她会说“"停止"。
现在的问题是,有没有办法比较/识别用户从预先录制的音频命令发出的命令(音频输入),他/她已校准" /早些时候记录?换句话说,比较来自另一个音频(文件)的音频流。希望有人能指出我正确的方向,因为我已经研究了很长时间了。
提前致谢。
注意:我没有像SoundHound那样比较/识别音乐。 另外,我不认为我需要语音识别,这对于我需要的机制来说太复杂和不必要。显然,如果没有语音识别,这很难(如果不是不可能的话)。任何人都可以推荐我可以尝试的语音识别库/ API(希望是javascript)吗?
答案 0 :(得分:0)
没有语音识别就无法做到这一点,因为人类生成两个相同音频文件的可能性远小于0.000000000000000000000000021%。
您可能能够识别语音音高并将其与校准音频进行相当准确的比较,但是基于不是来自机器的简单音频比较来捕捉语音 - 从不,绝对没有办法
您可以根据音高的变化,音节,共振峰之间的暂停长度等对某些单词/命令进行分类......但这些仍然是语音识别的第一步。