信息增益测量显示了什么?

时间:2015-08-11 15:30:24

标签: r machine-learning data-mining data-modeling

我正忙着使用r中的fSelector包来使用information.gain函数来衡量信息增益。

我不确定输出是什么,因为有缺点,我理解虹膜数据集的输出。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出结果为:

attr_importance
age                           0.000000e+00
max_stake_scale               0.000000e+00
current_loyalty_status        2.968854e-04
lifespan                      1.523364e-02
early_hours                   0.000000e+00
morning                       0.000000e+00
afternoon                     0.000000e+00
evening                       0.000000e+00

响应变量是二进制,交叉或不交叉,是或否。我不确定重要的特征是什么。

由于

1 个答案:

答案 0 :(得分:3)

信息增益通过了解特定功能的价值来告诉您获得了多少信息。在二元分类问题的情况下,您需要1比特的信息来进行分类(因为有两种可能的结果);即特定特征的最大信息增益为1.

在您的情况下,几乎所有特征的信息增益为0,这意味着知道它们的值并不能决定数据所具有的类别。非零值表示最重要的(尽管仍然非常无法提供)功能 - lifespancurrent_loyalty_status。缺点只是指数表示法的一部分,即2.968854e-04表示2.968854 * 10^-40.0002968854