我正在研究一个分类模型,该模型具有7个预测变量和大约100,000个观察值。
我的问题是5个预测变量是因子变量,每个变量都有数百个级别。
我知道某些算法(例如随机森林)中的级别数存在限制。当我尝试通过插入符号库使用随机森林拟合模型时,出现错误消息:
不能处理超过53个类别的类别预测变量。
我已经尝试过一些方法来绕过此限制,例如单热编码和sparse.model.matrix,但是它没有用,通常是因为我的计算机内存不足,无法将7个预测变量转换为2,000个预测变量。 / p>
所以我的问题是,能否在预测算法中成功使用这些因子水平? 我不想将级别分为53个级别,因为它将丢失我太多的数据。
任何建议将不胜感激