训练Google Audioset数据集以进行声音分类

时间:2019-04-22 15:54:20

标签: tensorflow audio classification

我的项目的目的是确定输入的声音是否是人工产生的,如果是,则是什么声音(语音,尖叫,哭泣等)。因此,我发现了https://research.google.com/audioset//download.html,它提供了来自youtube的音频的音频集和带有类标签索引的csv。

我的问题是数据集的文件是具有这种格式的tfrecord文件à(如上面链接的页面所示):

上下文:{   功能:{     关键:“ video_id”     值:{       bytes_list:{         值:[YouTube视频ID字符串]       }     }   }

功能:{     键:“ start_time_seconds”     值:{       float_list:{         价值:6.0       }     }   }   功能:{     键:“ end_time_seconds”     值:{       float_list:{         价值:16.0       }     }   }   功能:{     关键:“标签”       值:{         int64_list:{           value:[1,522,11,172]#标签的含义可以在这里找到。         }       }     } }

功能列表:{   feature_list:{     关键:“音频嵌入”     值:{       功能:{         bytes_list:{           值:[128个8位量化特征]         }       }       功能:{         bytes_list:{           值:[128个8位量化特征]         }       }     }     ...#每隔一秒钟重复一次   }

}

所以,我的问题是要了解tfrecords文件中每个音频帧所属的音频类,并以[[audio1,'Speech'],[audio2,'Animal Sound']等方式映射它们。 ]训练神经网络模型。

0 个答案:

没有答案