在Google的音频中使用什么算法进行音频特征提取?

时间:2017-05-19 22:48:56

标签: audio machine-learning sound-recognition

我开始使用Google的Audioset。虽然数据集很广泛,但我发现有关音频特征提取的信息非常模糊。该网站提到

  

以1Hz提取的128维音频特征。使用Hershey等人描述的VGG启发的声学模型提取音频特征。 al。,受过YouTube-8M初步版的培训。这些功能经过PCA编辑和量化,与YouTube-8M提供的音频功能兼容。它们存储为TensorFlow Record文件。

paper范围内,作者讨论了在960毫秒的块上使用mel谱图来获得96x64的表示。然后我不清楚他们如何使用Audioset中使用的1x128格式表示。有谁知道更多关于这个?

1 个答案:

答案 0 :(得分:2)

他们使用96*64数据作为经过修改的VGG网络的输入。VGG的最后一层是FC-128,因此其输出将是1*128 ,这就是原因。

VGG的体系结构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py