Question

我在这里问一个关于在RandomForest中使用RandomForest package函数的基本问题。我使用RF algorithm进行土地覆盖分类。

我有一些geo-spatial数据，我将其划分为训练数据集（pks_trainingdf）和验证数据集（pks_validationdf）。

每个df包含34列;前33列是我想用于分类的乐队;最后一列（“class”）包含类，它们应该是RF分类的输出。

我的问题是：哪个数据集是x的参数以及xtest的哪个？以下代码行是否正确？

modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)],
                       y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)],
                       ytest=pks_trainingdf$class, importance=TRUE)

Answer 1

x用于训练子集，而xtest用于测试或验证子集。在你的情况下，它看起来你逆。如果两者具有相同的尺寸（通常不是这种情况），这一点并不重要。在分成训练和验证子集之前，将数据集随机化是很重要的。如果不是，你应该改变它。此外，分为三个子集而不是两个子集更安全。一个用于训练，另一个用于验证模型，最后一个用于报告错误。

在RandomForest中使用验证和训练数据集

1 个答案: