我完全不知道从哪里开始。我正在尝试对我的数据集进行5倍交叉验证,但首先需要将数据分成5倍。
问题1:数据需要通过记录(文件名)进行分割,以便来自同一个人的所有记录都在同一个折叠中,并且不会在测试和训练数据集之间进行分割。
问题2:我需要根据文件名(即录音)将数据分成80%的训练和20%的测试
问题3:训练和测试数据需要分为5倍(再次通过文件名)
因此,我需要生成10个CSV文件,其中列出current dataset中的功能,测试和培训CSV,每个折叠1个。
我正在尝试在python中对此进行编码,并且非常感谢任何提示和建议。谢谢,如果您需要任何其他信息,请与我们联系。