我试图确定个体变量在LMT(Logistic模型树)DT(决策树)的WEKA实现中的重要性。
我想知道每个变量在分类任务中的贡献,因此需要确定每个变量的重要性。这是为了对我的结果进行更深入的分析。
我已经查看了“选择属性”标签和相应的算法(即主要组件,信息增益,排名等);但是,这些算法提供的信息是关于哪些组合或变量等级将对最佳(或最有效,或最快,取决于您的最终目标,分类器)做出贡献。
但是,我对排名或选择最重要的变量不感兴趣。我有兴趣确定每个变量对DT的最终分类得分有多大(例如,以百分比形式)。
我已经考虑逐个删除每个变量以确定分数如何变化;但我不确定这是否可以手动完成,因为最终得分可能取决于一些潜在的相关性,这就是为什么我想要使用所有变量一起做出这个决定(即使一个的贡献为零)。
所以,问题是:有没有办法衡量分类器中使用的每个INDIVIDUAL变量的贡献(即使该贡献为零)?
提前感谢您的任何帮助。
答案 0 :(得分:1)
以下是一些调查和研究的答案。 事实是信息增益不是概率。该属性选择器的结果仅提供关于特征有助于“纯”分类的信息量的信息(整数(0-1))。
例如,InfoGain值为1的要素意味着该要素中的所有可用信息都有助于分类,但这并不意味着单独使用该提示能够进行整个分类。
在许多情况下,分类是不同特征相关性的结果(至少在我对决策树的体验中)。因此,分析每个决策到达分类的路径是通过其相关性检测提示的贡献的一种方式。信息增益算法将每个特征或属性评估为单个实体,而不考虑与其结合的其他属性来决定类成员资格。