在模型中使用具有数百个级别的因子

时间:2019-02-17 13:06:32

标签: r

我正在研究一个分类模型,该模型具有7个预测变量和大约100,000个观察值。

我的问题是5个预测变量是因子变量,每个变量都有数百个级别。

我知道某些算法(例如随机森林)中的级别数存在限制。当我尝试通过插入符号库使用随机森林拟合模型时,出现错误消息:

  

不能处理超过53个类别的类别预测变量。

我已经尝试过一些方法来绕过此限制,例如单热编码和sparse.model.matrix,但是它没有用,通常是因为我的计算机内存不足,无法将7个预测变量转换为2,000个预测变量。 / p>

所以我的问题是,能否在预测算法中成功使用这些因子水平? 我不想将级别分为53个级别,因为它将丢失我太多的数据。

任何建议将不胜感激

0 个答案:

没有答案