(不确定这个问题是否适合这个问题)
我们正在分析成千上万的人们谈论的声音片段,试图找到音调,音节等等的模式,以便找到一个签名数据库,以匹配新的声音咬合情绪。
虽然我熟悉一些人工智能算法(例如贝叶斯),但我很好奇是否有人对我们可以采用的算法类型有任何想法。
整体概念(图短2-5秒.wav剪辑):
soundClip1 -> 'anger'
soundClip2 -> 'happy'
soundClip3 -> 'sad'
...
emotion = predict(newSoundClip)
给定一个新的声音片段,我们想做一些类似于Shazzam的事情,除了返回剪辑代表特定情感的概率。
任何建议都将不胜感激!
答案 0 :(得分:1)
尝试根据幅度和频率对剪辑进行标准化,以使其具有可比性。
然后测量幅度和光谱属性,如方差,自相关,最小值/最大值等。
这些测量允许将每个剪辑视为n维空间中的矢量。您可以使用聚类分析方法查找相邻的剪辑。主成分分析(PCA)可能有助于找到或多或少有意义的属性维度。
需要大量的阅读模式识别,信号处理和聚类分析文本来了解可能的内容。