在RandomForest中使用验证和训练数据集

时间:2017-02-16 21:31:59

标签: r validation classification random-forest training-data

我在这里问一个关于在RandomForest中使用RandomForest package函数的基本问题。 我使用RF algorithm进行土地覆盖分类。

我有一些geo-spatial数据,我将其划分为训练数据集(pks_trainingdf)和验证数据集(pks_validationdf)。

每个df包含34列;前33列是我想用于分类的乐队;最后一列(“class”)包含类,它们应该是RF分类的输出。

我的问题是:哪个数据集是x的参数以及xtest的哪个? 以下代码行是否正确?

modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)],
                       y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)],
                       ytest=pks_trainingdf$class, importance=TRUE)

1 个答案:

答案 0 :(得分:1)

x用于训练子集,而xtest用于测试或验证子集。在你的情况下,它看起来你逆。如果两者具有相同的尺寸(通常不是这种情况),这一点并不重要。在分成训练和验证子集之前,将数据集随机化是很重要的。如果不是,你应该改变它。此外,分为三个子集而不是两个子集更安全。一个用于训练,另一个用于验证模型,最后一个用于报告错误。