应用错误收集

我正在研究一个分类模型，该模型具有7个预测变量和大约100,000个观察值。

我的问题是5个预测变量是因子变量，每个变量都有数百个级别。

我知道某些算法（例如随机森林）中的级别数存在限制。当我尝试通过插入符号库使用随机森林拟合模型时，出现错误消息：

不能处理超过53个类别的类别预测变量。

我已经尝试过一些方法来绕过此限制，例如单热编码和sparse.model.matrix，但是它没有用，通常是因为我的计算机内存不足，无法将7个预测变量转换为2,000个预测变量。 / p>

所以我的问题是，能否在预测算法中成功使用这些因子水平？我不想将级别分为53个级别，因为它将丢失我太多的数据。

任何建议将不胜感激