我正在使用随机森林(回归)分析有关内战的数据。我已经绘制了两个不同的图:变量重要性和最小深度的分布(使用R中的randomForest randomForestExplainer程序包。)
我的问题是:为什么变量重要性最高的变量不是平均最小深度最低的变量?那是什么意思呢?我包括了两个图像。
因变量是冲突强度。数据以国家/地区-年份格式组织,因此对于每个国家/地区,我都有每年的数据点。自变量包括人口,区域,gdp等。
require(randomForest)
require(randomForestExplainer)
randomF <- randomForest(max_intensity ~ nrgroups + GDPlog_lag + logPopulation + Polity_lag + Asia + Africa + MiddleEast + Europe + Americas, data=MAR_regressions, na.action=na.exclude)
plot(randomF, type="l", main= "Random Forest Protest and Rebellion")
varImpPlot(randomF, main="Variable Importance Random Forest Prot & Reb", col="blue")
plot_min_depth_distribution(randomF)
(由于我没有10个声望,所以我无法包含图片)