您如何将口语与音频文件进行比较并确定它们是否匹配?例如,如果我对我的iPhone应用程序说“apple”,我希望它能够录制音频并将其与预先录制的有人说“苹果”的音频文件进行比较。它应该能够确定两个说出的单词匹配。
我可以使用哪种算法或库来执行这种基于语音的音频文件匹配?
答案 0 :(得分:1)
你应该查看声学指纹识别,请参阅下面的维基百科链接。 Shazam基本上是为音乐做的。
答案 1 :(得分:1)
我知道这个问题已经过时了,但我今天发现了这个图书馆:
答案 2 :(得分:0)
您可以使用神经网络库并教它识别不同的语音模式。这将需要了解神经网络的一般理论背后的原理以及它们如何用于创建将以特定方式运行的系统。如果您对该主题一无所知,那么您可以开始使用基础知识然后使用库而不是自己实现一些东西。希望有所帮助。
答案 3 :(得分:0)
Sphinx进行语音识别,而PocketSphinx已由Brian King移植到iPhone上
检查https://github.com/KingOfBrian/VocalKit
他提供了很好的细节,并且很容易为自己实施。我运行他的例子并修改了我自己的演绎。