我正在优化基于制造业的数据集,该数据集由大量可控参数组成。目的是获得这些参数的最佳运行设置。
在研究过程中,我熟悉了几种预测算法,如果我说的话,可以使用随机森林预测我的因变量,以了解每个自变量的重要性,有没有办法提取算法使用的最终方程/关系?
我不确定我的问题是否足够清楚,请让我知道是否可以在此处添加其他内容。
答案 0 :(得分:1)
没有一种通用方法可以从随机森林中获得可解释的方程式,从而解释协变量如何影响因变量。为此,您可以使用更合适的其他模型,例如线性回归(可能具有内核函数)或决策树。请注意,您可以使用一种模型进行预测,而可以使用一种模型进行描述性分析-没有内在的理由坚持使用单个模型。
使用随机森林预测我的因变量,以了解每个自变量的重要性
了解每个因变量的重要性并不一定意味着您需要在问题标题中提出问题,即获取实际关系。大多数随机森林软件包都有一种方法来量化每个协变量在整个训练集上对模型的影响程度。
答案 1 :(得分:0)
有很多方法可以基于训练后的模型来估计特征的重要性。对于随机森林,最著名的方法是MDI(杂质的平均降低)和MDA(准确性的平均降低)。许多流行的ML库为随机森林开箱即用地支持功能重要性估计。