我需要能够确定两个声音是否非常相似。目标是使用非常有限的词汇(10或15)短或一个或两个音节词,然后比较捕获的声音以确定它是否是环境和捕获条件中具有所有通常可变性的那些项目之一。这个想法是用户可以通过语音而不是键盘或鼠标发出一些简单的命令。
有谁知道最好的方法吗?我不想做全面的语音识别,只是更有限的事情。
答案 0 :(得分:3)
我会重新考虑使用语音识别库...例如CMU's Sphinx软件或Microsoft's speech recognizer。不幸的是,自己做这件事并不是一件简单的事。如何完成您要做的事情的一种典型方法如下:
1)将样本切成小段(几毫秒)
2)对每个段进行傅里叶变换,收集主系数
3)使用隐马尔可夫模型来计算给定系数序列的音素可能的转换
4)映射到描述音素到单词的字典(你可以看看Sphinx字典作为指南)......像你这样的小集应该会产生很好的结果。
如果你想稍微简化这一点,你可以尝试在特定的时间步长处获取系数并将它们输入SVM或神经网络......我还没有尝试过这个但是打赌你可以通过一些调整获得合理的结果。