随机森林似乎不会处理超过32类因素。我该怎么做才能将这些因素包括在我的模型训练中?

时间:2013-06-10 15:39:20

标签: r machine-learning svm random-forest

我正在尝试根据我的训练数据训练随机森林,这些数据有“名字”,“城市”等预测因子。这两个预测变量有超过32个类别。我该怎么做才能包含它们?

即使其他一些算法似乎也不能处理更大的类别,如SVM或gbm。

1 个答案:

答案 0 :(得分:2)

出于速度原因,通常建议尽量避免使用公式接口进行随机游览。相反,将model.matrix与您的公式一起使用,并将结果提供给randomforest。然后你可以拥有你想要的多个类别,因为它们是二分的(即贬低或变成二进制变量)。

正如@joran指出的那样,你可能也想更多地考虑你的问题。