从因子变量中减少水平

时间:2017-01-09 10:06:44

标签: r variables reduce levels

我必须在大型火车组中做一个随机森林,但我不能使用53级以上的变量。

我需要减少的因子变量(train$tip)有150个等级(KHC,KTF,KGL,......)。我如何(快速)删除(或仅保持53个级别)出现几次并持有更多数量的级别?

我是否要编写所有级别的名称,我看过几次或者是否有更快的方法?

train <- train[!train$tip == "KTF", ]

1 个答案:

答案 0 :(得分:4)

你可以这样做:

sort()

names()计算等级的频率; [按降序排列; {{1}}获得级别而不是频率;并且{{1}}仅选择前53个。