Question

我正在使用C中的C5算法构建一个流失模型。在完成模型并成功预测数据之后，我如何知道每个客户流失的前三个重要预测因素？所以我知道模型分类的原因 - 例如 - cust A，B，D，F为正，其他为负。有可能吗？

感谢。

Answer 1

您可以在模型中绘制树。如果您使用单个C5.0树，这将为您提供一种简单的方法来提供树的确切推理。

library(C50)
set.seed(1401)
C5tree <- C5.0(x = iris[, 1:4], y = iris$Species, trials = 1) # A single C50 tree
C5imp(C5tree)
plot(C5tree, trial = 0)

如果你使用助推（即当训练树木时试验> 1），那么由于树木的数量，这种方法可能太复杂了。

C5boosted <- C5.0(x = iris[, 1:4], y = iris$Species, trials = 3) # Boost three trees
C5imp(C5boosted)
# Plot each of the trees
for(i in 0:2){ # trials starts counting at 0, see ?plot.C5.0
plot(C5boosted, trial = i)
}

相反，您可以依赖变量重要性来表示重要变量的一般报告，或者使用部分依赖图来显示一个变量相对于所有其他变量的（非线性）效果。我建议在CRAN上查看 pdp 包。

R - 顶部x重要变量分类中的每个单独样本数据

1 个答案: