R中随机森林的双变量部分依赖性

时间:2016-08-23 12:46:15

标签: r statistics random-forest

我有一个包含二元因变量和多个预测变量的数据集,包括参与者。我试图检查不同预测因子对不同参与者的特殊影响。为了做到这一点,我试图看看参与者id和其他预测因子之间的相互作用对因变量的影响。我在R中使用randomForest。我可以成功地适应森林,并且可以为各个变量生成部分依赖图。然而,我需要的是变量对的部分依赖图 - 参与者+其他人。这可能吗?

供参考,我的代码:

data_sample<-data_raw[sample(1:nrow(data_raw),500,replace=F),];
test_rf<-randomForest(perceptually.rhotic~vowel+speaker+modified_clip_start+function_word+year_of_birth+gender+fathers_job_type+prepausal,data=data_sample,ntree=500,mtry=3);
partialPlot(test_rf,pred.dat=data_sample,x.var="speaker");

??? partialPlot(test_rf,pred.dat=data_sample,x.var=c("speaker","vowel"));

非常感谢任何人提供的任何建议!

1 个答案:

答案 0 :(得分:3)

plotmo R包将为“any”模型绘制所有变量和变量对(双变量依赖性)的部分依赖关系。例如:

library(randomForest)
data(trees)
mod <- randomForest(Volume~., data=trees)
library(plotmo)
plotmo(mod, pmethod="partdep") # plot partial dependencies

给出了

plot

您可以使用plotmo的all1all2degree1degree2参数准确指定要绘制的变量和变量对。其他示例位于vignette for the plotmo package