我正在使用C中的C5算法构建一个流失模型。在完成模型并成功预测数据之后,我如何知道每个客户流失的前三个重要预测因素?所以我知道模型分类的原因 - 例如 - cust A,B,D,F为正,其他为负。有可能吗?
感谢。
答案 0 :(得分:0)
您可以在模型中绘制树。如果您使用单个C5.0树,这将为您提供一种简单的方法来提供树的确切推理。
library(C50)
set.seed(1401)
C5tree <- C5.0(x = iris[, 1:4], y = iris$Species, trials = 1) # A single C50 tree
C5imp(C5tree)
plot(C5tree, trial = 0)
如果你使用助推(即当训练树木时试验> 1),那么由于树木的数量,这种方法可能太复杂了。
C5boosted <- C5.0(x = iris[, 1:4], y = iris$Species, trials = 3) # Boost three trees
C5imp(C5boosted)
# Plot each of the trees
for(i in 0:2){ # trials starts counting at 0, see ?plot.C5.0
plot(C5boosted, trial = i)
}
相反,您可以依赖变量重要性来表示重要变量的一般报告,或者使用部分依赖图来显示一个变量相对于所有其他变量的(非线性)效果。我建议在CRAN上查看 pdp 包。