我有一个大约10000行和10列的大型数据集。我想使用rpart包对此数据集进行分类。但是每列有很多(超过50个)类。所以R只是挂起。
我有哪些选择来限制数据范围或减少每列中的类数?
答案 0 :(得分:0)
这称为分层抽样,您希望在减少数据集时,类的比例保持不变。使用来自caret包的createDataPartition。
table(iris$Species)
library(caret)
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1)
table(iris[trainIndex,]$Species)
将虹膜替换为数据集名称