算法建议:比较声音片段

时间:2015-02-14 19:28:10

标签: algorithm audio artificial-intelligence

(不确定这个问题是否适合这个问题)

我们正在分析成千上万的人们谈论的声音片段,试图找到音调,音节等等的模式,以便找到一个签名数据库,以匹配新的声音咬合情绪。

虽然我熟悉一些人工智能算法(例如贝叶斯),但我很好奇是否有人对我们可以采用的算法类型有任何想法。

整体概念(图短2-5秒.wav剪辑):

soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)

给定一个新的声音片段,我们想做一些类似于Shazzam的事情,除了返回剪辑代表特定情感的概率。

任何建议都将不胜感激!

1 个答案:

答案 0 :(得分:1)

尝试根据幅度和频率对剪辑进行标准化,以使其具有可比性。

然后测量幅度和光谱属性,如方差,自相关,最小值/最大值等。

这些测量允许将每个剪辑视为n维空间中的矢量。您可以使用聚类分析方法查找相邻的剪辑。主成分分析(PCA)可能有助于找到或多或少有意义的属性维度。

需要大量的阅读模式识别,信号处理和聚类分析文本来了解可能的内容。