我正在开展一个涉及机器学习和数据比较的项目。
为了这个项目的目的,我将抽象的视频数据提供给神经网络。
现在,抽象图像数据非常简单。我可以在视频中的某些点处拍摄静止帧,将它们缩小为5 x 5像素(或任何其他可管理的分辨率)并获取像素值进行分析。
结果数据提供了一个独特的,小的,有些数据丰富的样本(甚至5个5x5像素的样本足以区分戏剧与自然纪录片等)。
然而,我被困在音频部分。由于音频由样本组成,每个样本本身没有内在含义,我无法找到将音频抽象为可处理块的方法。
这个过程有共同的技术吗?如果没有,音频数据可以量化和抽象出什么指标?
答案 0 :(得分:1)
您需要的过程是音频特征提取。存在大量特征检测算法,通常专用于音乐或语音信号。 对于音乐,色度,节奏,谐波分布都是您可能提取的所有功能 - 以及更多功能。 通常,音频特征提取算法在相当宏观的水平上工作 - 也就是说一次有数千个样本。
入门的好地方是Sonic visualiser,它是音频可视化算法的插件主机 - 其中许多都是功能提取器。
YAAFE也可能包含一些有用的东西。