线性回归系数与决策树中特征重要性之间的关系

时间:2019-04-18 08:59:08

标签: machine-learning linear-regression decision-tree

最近我有一个机器学习(ML)项目,该项目需要确定对目标/输出有重大影响的功能(输入,a1,a2,a3 ... an)。

我使用线性回归来获取特征的系数,并使用决策树算法(例如,Random Forest Regressor)来获取重要特征(或特征重要性)。

我的理解是否正确,即线性回归中具有较大系数的特征应列为决策树算法中特征重要性的首位?

2 个答案:

答案 0 :(得分:1)

并非如此,如果未对输入要素进行规范化,则对于均值/标准差较大的要素,您可能具有相对较大的系数。如果对您的功能进行了标准化,则可以,这可能表明这些功能的重要性,但仍然需要考虑其他因素。

您可以尝试使用sklearn的某些要素选择类,这些类应该为您自动here

答案 1 :(得分:1)

对您问题的简短答案是不,不一定。考虑到我们不知道您的不同输入是什么(如果它们在同一单位系统中,变化范围等)这一事实。 我不确定为什么要将线性回归与决策树结合在一起。但是我只是假设您有一个有效的模型,例如线性回归,可以在测试集上提供良好的准确性。根据您的要求,您可能需要根据获得的模型来进行敏感性分析。我建议对“ SALib”库和敏感性分析主题进行一些阅读。