我正在寻找一种方法来比较用户提交的录音与参考录音进行比较,以便为某人提供语言学习的分数或百分比。
我意识到这是一种非常科学的做事方式,而不仅仅是一种噱头。
我的第一个想法是某种音频指纹识别或波形比较。
我应该关注哪些想法?
答案 0 :(得分:3)
尽管对该主题进行了大量研究,但这绝不是一个需要解决的微不足道的问题。目前,语音识别领域中最成功的机器学习形式采用Hidden Markov Model技术。
您可能还想了解一下HMM算法的现有实现。早期阶段的一个这样的图书馆是ghmm。
或许更好,更容易适用于您的问题的是HTK。
答案 1 :(得分:2)
除了chomp的最佳答案之外,您可能需要查找的一个重要关键字是动态时间扭曲(DTW)。这是维基百科文章:http://en.wikipedia.org/wiki/Dynamic_time_warping