“手动”分配培训和测试数据

时间:2020-06-22 18:35:10

标签: python database

我组装了一个数据框,其中包含日期,所述日期的天气,指定是否有森林火灾的虚拟对象以及该森林火灾的燃烧区域。 问题是,如果我使用train_test_split,则我的机器学习模型将使用整个数据,并且数据框中只有5%的日期发生森林火灾,因此它倾向于自我训练以实际预测所有日子都不会发生火灾。还是什么,我还是不明白。

无论如何,我相信如果只用包含森林火灾的日子训练模型,然后使用整个数据帧进行测试,则可以更好地预测森林火灾。 有人知道我该怎么做吗? 我正在使用python 3和jupyter笔记本。我相信RandomForest也最适合此机器学习问题。

1 个答案:

答案 0 :(得分:0)

您正在处理的数据集不平衡。有多种处理方式,具体取决于您可用的数据。

如果您有非常大的数据集,则可以使用挑剔的样本训练模型,一半进行森林大火,一半进行无火。

如果不是这种情况,则需要进一步说明。例如,您可以详细了解here