我的项目的目的是确定输入的声音是否是人工产生的,如果是,则是什么声音(语音,尖叫,哭泣等)。因此,我发现了https://research.google.com/audioset//download.html,它提供了来自youtube的音频的音频集和带有类标签索引的csv。
我的问题是数据集的文件是具有这种格式的tfrecord文件à(如上面链接的页面所示):
上下文:{ 功能:{ 关键:“ video_id” 值:{ bytes_list:{ 值:[YouTube视频ID字符串] } } }
功能:{ 键:“ start_time_seconds” 值:{ float_list:{ 价值:6.0 } } } 功能:{ 键:“ end_time_seconds” 值:{ float_list:{ 价值:16.0 } } } 功能:{ 关键:“标签” 值:{ int64_list:{ value:[1,522,11,172]#标签的含义可以在这里找到。 } } } }
功能列表:{ feature_list:{ 关键:“音频嵌入” 值:{ 功能:{ bytes_list:{ 值:[128个8位量化特征] } } 功能:{ bytes_list:{ 值:[128个8位量化特征] } } } ...#每隔一秒钟重复一次 }
}
所以,我的问题是要了解tfrecords文件中每个音频帧所属的音频类,并以[[audio1,'Speech'],[audio2,'Animal Sound']等方式映射它们。 ]训练神经网络模型。