我在这里问一个关于在RandomForest
中使用RandomForest package
函数的基本问题。
我使用RF algorithm
进行土地覆盖分类。
我有一些geo-spatial
数据,我将其划分为训练数据集(pks_trainingdf)和验证数据集(pks_validationdf)。
每个df
包含34列;前33列是我想用于分类的乐队;最后一列(“class”)包含类,它们应该是RF
分类的输出。
我的问题是:哪个数据集是x
的参数以及xtest
的哪个?
以下代码行是否正确?
modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)],
y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)],
ytest=pks_trainingdf$class, importance=TRUE)
答案 0 :(得分:1)
x用于训练子集,而xtest用于测试或验证子集。在你的情况下,它看起来你逆。如果两者具有相同的尺寸(通常不是这种情况),这一点并不重要。在分成训练和验证子集之前,将数据集随机化是很重要的。如果不是,你应该改变它。此外,分为三个子集而不是两个子集更安全。一个用于训练,另一个用于验证模型,最后一个用于报告错误。