什么是Weka的InfoGainAttributeEval公式,用于评估具有连续值的熵?

时间:2016-02-27 03:29:27

标签: machine-learning formula weka entropy information-gain

我使用Weka的信息增益属性选择功能,我试图弄清楚Weka在处理连续数据时使用的具体公式。

我理解当数据中的值是离散的时,熵的通常公式是this。我知道在处理连续数据时,可以使用差分熵或将值离散化。我已经尝试查看Weka对InfoGainAttributeEval的解释,并查看了很多其他参考文献,但无法找到任何内容。

也许它只是我,但有人会知道Weka如何实现这种情况吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

我问作者Mark Hall,他说:

  

它使用Fayad和。的监督的基于MDL的离散化方法   伊拉尼。见javadocs:
  http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html

您也可以看到离线化方法的这个链接:

http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html