我有一个数据集,其中包含14列和111256行。最后一列包含id,将用作目标列(Y)。使用Train后,测试拆分scikitlearn树分类器实现。
来自sklearn.ensemble的导入RandomForestClassifier
forest = RandomForestClassifier(n_estimators = 100)
forest = forest.fit(X,Y)
此预测的结果是完美的。我可以说它应该是完美的。因为,此数据包含预测列。在此之后我也可以使用pickle dump导出结果。 问题是,当我使用包含具有空值的预测列的看不见的测试数据时。我得到了完全错误的预测值。 (使用此命令)
predic = forest.predict(Test_Data)
任何线索如何从这里开始。我尝试了不同的技术,但没有用。例如,我曾经将所有空值转换为0,但结果不是我想要的。因为,在RF的文档中,它是用于预测目的的良好算法。 如果您认为我做错了,请告诉我。我将非常感激。 先感谢您。