Question

（不确定这个问题是否适合这个问题）

我们正在分析成千上万的人们谈论的声音片段，试图找到音调，音节等等的模式，以便找到一个签名数据库，以匹配新的声音咬合情绪。

虽然我熟悉一些人工智能算法（例如贝叶斯），但我很好奇是否有人对我们可以采用的算法类型有任何想法。

整体概念（图短2-5秒.wav剪辑）：

soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)

给定一个新的声音片段，我们想做一些类似于Shazzam的事情，除了返回剪辑代表特定情感的概率。

任何建议都将不胜感激！

Answer 1

尝试根据幅度和频率对剪辑进行标准化，以使其具有可比性。

然后测量幅度和光谱属性，如方差，自相关，最小值/最大值等。

这些测量允许将每个剪辑视为n维空间中的矢量。您可以使用聚类分析方法查找相邻的剪辑。主成分分析（PCA）可能有助于找到或多或少有意义的属性维度。

需要大量的阅读模式识别，信号处理和聚类分析文本来了解可能的内容。