为了比较目的,如何抽象音频数据?

时间:2014-05-22 10:31:09

标签: audio abstraction

我正在开展一个涉及机器学习和数据比较的项目。

为了这个项目的目的,我将抽象的视频数据提供给神经网络。

现在,抽象图像数据非常简单。我可以在视频中的某些点处拍摄静止帧,将它们缩小为5 x 5像素(或任何其他可管理的分辨率)并获取像素值进行分析。

结果数据提供了一个独特的,小的,有些数据丰富的样本(甚至5个5x5像素的样本足以区分戏剧与自然纪录片等)。

然而,我被困在音频部分。由于音频由样本组成,每个样本本身没有内在含义,我无法找到将音频抽象为可处理块的方法。

这个过程有共同的技术吗?如果没有,音频数据可以量化和抽象出什么指标?

1 个答案:

答案 0 :(得分:1)

您需要的过程是音频特征提取。存在大量特征检测算法,通常专用于音乐或语音信号。 对于音乐,色度,节奏,谐波分布都是您可能提取的所有功能 - 以及更多功能。 通常,音频特征提取算法在相当宏观的水平上工作 - 也就是说一次有数千个样本。

入门的好地方是Sonic visualiser,它是音频可视化算法的插件主机 - 其中许多都是功能提取器。

YAAFE也可能包含一些有用的东西。