我正在接收数据集,其中几个变量具有> 10个类别(一些序数/一些名义),我怀疑可以合并几个类别,既可以更容易呈现,也可以获得足够的事件进行分析。这可以/应该使用先验知识来完成,但是非常欢迎简化过程的算法。这样的算法存在吗?这是在R?
中实现的编辑:
data("GBSG2", package = "ipred")
cut(GBSG2$tsize,seq(0,100,10))->GBSG2$size
现在我想知道是否可以合并GBSG2 $ size或GBSG2 $ tgrade中的任何类别和类别,而不会在预测GBSG2 $ cens状态的能力方面显着丢失信息。我知道我可以通过合并两个变量中的几个类别来手动完成,运行逻辑回归并比较手动合并变量之前和之后的结果,但还有其他方法吗?