在大型数据集上使用rpart包

时间:2016-03-22 09:57:59

标签: r classification rpart large-data

我有一个大约10000行和10列的大型数据集。我想使用rpart包对此数据集进行分类。但是每列有很多(超过50个)类。所以R只是挂起。

我有哪些选择来限制数据范围或减少每列中的类数?

1 个答案:

答案 0 :(得分:0)

这称为分层抽样,您希望在减少数据集时,类的比例保持不变。使用来自caret包的createDataPartition。

table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)

将虹膜替换为数据集名称