我知道决策树有由Gini计算的feature_importance属性,它可以用来检查哪些功能更重要。
但是,对于scikit-learn或Spark中的应用程序,它只接受数字属性,所以我必须将字符串属性传递给数字属性,然后对其执行单热编码器。当特征被放入决策树模型时,它是0-1编码而不是原始格式,我的问题是,如何解释原始属性的特征重要性?在尝试解释特征重要性时,我应该避免使用单热编码器吗?
感谢。
答案 0 :(得分:1)
从概念上讲,您可能希望使用一些重要的排列方式。基本思想是,您获取原始数据集,并一次随机地随机排列每一列1的值。然后,您用模型对扰动的数据进行评分,并将性能与原始性能进行比较。如果一次完成1列,则可以通过销毁每个变量并将其索引到损失最大的变量(将变为1或100%)的方式来评估性能损失。如果您可以对1个热编码之前的原始数据集执行此操作,那么您将获得一项将它们整体分组的重要性度量。