当我在处理过度拟合属性时偶然发现一些不一致时,我只是搞乱了WEKA的信息增益属性评估器。在我的关系中,我使用3个数字属性和一个class属性,它在失败和正确的数据集之间进行划分。此类属性仅依赖于attr3,而其他两个属性只具有随机值。所以这是ARFF文件:
@relation TEST
@attribute attr1 numeric
@attribute attr2 numeric
@attribute attr3 numeric
@attribute class {failing,correct}
@data
1, 12.714813, 5000, failing
26, -10000, 0, correct
10, 9.547521, 5000, failing
-10000, 3.699694, 0, correct
38, 6.1541, 5000, failing
使用默认设置执行信息增益属性评估程序后,这是输出排名:
=== Attribute Selection on all input data ===
Search Method:
Attribute ranking.
Attribute Evaluator (supervised, Class (nominal): 4 class):
Information Gain Ranking Filter
Ranked attributes:
0.971 3 attr3
0.971 2 attr2
0 1 attr1
Selected attributes: 3,2,1 : 3
现在,属性3正确地具有0.971的信息增益,其等于关系的熵。用信息增益评估其他两个属性并不真正有意义,因为它们包含高度互信息。但我不明白的是,为什么一个过度拟合属性具有最大信息增益而另一个具有最小信息增益。信息增益属性评估器如何处理那些过度拟合属性?