在回归问题中,我有许多分类预测因子(因子)。其中许多因素也有很多水平(其中一个变量有2000个水平)。由于使用诸如预测变量这样的变量的回归将过于高度参数化,我想知道是否有某种方法将这种变量的许多罕见级别折叠成“其他”级别。
我可以在R中使用因子函数,例如:
newx <- factor(oldx, levels=c(1,2,3,rep(4,1996)))
对于所有变量,其中级别将保留为更常见的级别,并映射到“其他”的较不常见的级别(查看表(oldx))。但是,我想知道在R中是否有标准方法可以做到这一点。还有,还有其他事情需要注意吗?
由于