我可以在R中使用randomForest来获取分层数据吗?

时间:2017-05-21 11:38:33

标签: r machine-learning random-forest hierarchical-data

我想知道如果我在随机林模型中使用R-package randomForest在两个级别上包含变量,实际会发生什么。我熟悉在多级数据上使用逻辑回归,您必须指定级别。与随机森林有什么相似之处吗?或者我可以将国家级变量和个人级变量放在同一个随机森林模型中,并比较所有变量的重要性吗?

非常感谢som帮助。

1 个答案:

答案 0 :(得分:1)

randomForest包支持两种模式:回归和分类。在回归模式中,您构建的模型基本上就像连续函数一样。在这种情况下,您将构建模型以预测数值响应。在分类模式中,模型将预测许多类中的一个。我相信,如果使用因子作为响应变量运行randomForest,它将自动使用回归模式。您使用的模式实际上取决于您拥有的数据类型。你是否在预测销售这种往往是连续的东西?或者,您是否预测了一组明确定义的类?

关于在同一模型中混合国家和个人级别变量,我认为这没有多大意义。您可能应该与国家/地区级分析分开进行单独的级别分析。如果您计划在每个国家/地区汇总多个人,然后运行国家/地区级别分析,则可能会例外。