我正在尝试对一些音频片段进行分类,为此,我必须将每个30秒长的音频片段拆分为1秒的片段。 然后,我想将这1秒钟的音频剪辑放入分类器中,并对所有30个一秒钟的音频文件的输出求平均,以得到最终的响应。我希望每30个输入中有1个输出。
我的问题是我不知道如何在分类器中输入它们,我不能按照建议的here使用多个输入,因为我有30个输入,而不仅仅是2个,那会很混乱
答案 0 :(得分:0)
您所指向的链接大约有2个单独的输入管道,而不是2个输入音频片段。您需要将您的 30秒钟音频数据包装在Tensor
中(如果您使用的是Tensorflow,则如果不使用,则使用与您使用的框架等效的数据)
然后可以将Tensor
输入到DeepLearning模型的一个输入管道中。
查看有关在Tensoflow中处理音频数据的教程: Tensorflow Audio Data Preparation and Augmentation Tutorial