信息获取在数据挖掘中隐含的实际含义是什么?

时间:2015-03-27 18:47:26

标签: classification data-mining entropy information-gain

Information Gain= (Information before split)-(Information after split)

信息增益可以通过上面的等式找到。但我不明白的是,这种信息收益究竟是什么意思呢?这是否意味着根据给定的属性或类似的东西进行拆分可以获得或减少多少信息?

链接到答案: https://stackoverflow.com/a/1859910/740601

2 个答案:

答案 0 :(得分:0)

信息增益是根据属性分割数据后实现的熵减少。 IG =熵(分裂前) - 熵(分裂后)。 见http://en.wikipedia.org/wiki/Information_gain_in_decision_trees

熵是衡量不确定性的指标。通过分割数据,我们试图减少其中的熵并获得有关它的信息。

我们希望通过选择最能降低熵的属性和分割点来最大化信息增益。

如果entropy = 0,则没有可以从中获得的进一步信息。

答案 1 :(得分:0)

正确地写了

  

信息增益=分割前熵 - 平均熵后分裂

熵与信息的差异是符号。如果您没有太多的数据信息,熵很高。

直觉是统计information theory的直觉。粗略的想法是:每个记录需要多少位才能对类标签赋值进行编码?如果只剩下一个类,则每个记录需要0位。如果您有混乱的数据集,则每个记录需要1位。如果这个类是不平衡的,你可以使用(理论上的!)最优压缩方案来减少这个数量;例如仅通过编码例外。为了匹配这种直觉,你当然应该使用基数为2的对数。

如果分支之后平均具有较低的熵,则认为分割是好的。然后,您通过拆分数据集获得了类标签上的信息。 IG值是您为预测类标签而获得的平均信息位数。