我正忙着使用r中的fSelector
包来使用information.gain函数来衡量信息增益。
我不确定输出是什么,因为有缺点,我理解虹膜数据集的输出。
weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df
输出结果为:
attr_importance
age 0.000000e+00
max_stake_scale 0.000000e+00
current_loyalty_status 2.968854e-04
lifespan 1.523364e-02
early_hours 0.000000e+00
morning 0.000000e+00
afternoon 0.000000e+00
evening 0.000000e+00
响应变量是二进制,交叉或不交叉,是或否。我不确定重要的特征是什么。
由于
答案 0 :(得分:3)
信息增益通过了解特定功能的价值来告诉您获得了多少信息。在二元分类问题的情况下,您需要1比特的信息来进行分类(因为有两种可能的结果);即特定特征的最大信息增益为1.
在您的情况下,几乎所有特征的信息增益为0,这意味着知道它们的值并不能决定数据所具有的类别。非零值表示最重要的(尽管仍然非常无法提供)功能 - lifespan
和current_loyalty_status
。缺点只是指数表示法的一部分,即2.968854e-04
表示2.968854 * 10^-4
或0.0002968854
。