我正在尝试根据我的训练数据训练随机森林,这些数据有“名字”,“城市”等预测因子。这两个预测变量有超过32个类别。我该怎么做才能包含它们?
即使其他一些算法似乎也不能处理更大的类别,如SVM或gbm。
答案 0 :(得分:2)
出于速度原因,通常建议尽量避免使用公式接口进行随机游览。相反,将model.matrix
与您的公式一起使用,并将结果提供给randomforest。然后你可以拥有你想要的多个类别,因为它们是二分的(即贬低或变成二进制变量)。
正如@joran指出的那样,你可能也想更多地考虑你的问题。