在Azure ML中,我有一个使用提升决策树回归的预测回归模型,它相当准确。
输入数据集有450多列,模型在预测测试数据集方面做得很好,没有过度拟合。
要报告结果我需要知道模型主要用于预测的功能/列,但在查看训练的模型数据时我无法轻松找到这些信息。
我如何识别此信息?我很乐意将结果数据集导入到R中以帮助找到它,但我只需要指明开始工作的方向。
答案 0 :(得分:0)
大多数情况下,在使用Microsoft Azure机器学习时,在查看主要用于进行预测的功能时,可以在Train Model 模块的输出中找到它。
但是在使用决策树作为算法时,训练模型模块的输出将是算法的构造“树”,它看起来像这样:
要了解在使用决策树算法时影响预测的功能,您可以使用排列功能重要性模块。请看下面的示例实验:
排列特征重要性的参数是随机种子和衡量绩效的指标 (在这种情况下,回归 - 确定系数) < / p>
排列功能重要性的左侧输入 您的训练模型,右侧输入 您的测试数据。
Permutation Feature Importance的输出如下所示:
您可以添加执行R脚本以从排列功能重要性模块中提取功能和分数。