我必须在大型火车组中做一个随机森林,但我不能使用53级以上的变量。
我需要减少的因子变量(train$tip
)有150个等级(KHC,KTF,KGL,......)。我如何(快速)删除(或仅保持53个级别)出现几次并持有更多数量的级别?
我是否要编写所有级别的名称,我看过几次或者是否有更快的方法?
train <- train[!train$tip == "KTF", ]
答案 0 :(得分:4)
你可以这样做:
sort()
names()
计算等级的频率; [
按降序排列; {{1}}获得级别而不是频率;并且{{1}}仅选择前53个。