维基百科确实有ID3 algorithm的定义,但它非常复杂。是否有任何链接以易于理解的方式解释该概念。
维基百科有许多复杂的理论和公式。我确实理解什么是熵。但我不明白什么是增益。你的基本解释或指向一些好的链接肯定会帮助我。
答案 0 :(得分:6)
我认为Wiki页面基本上是钉住这个概念,尽管一些例子会有所帮助。您可以查看此主题的the U Florida page和the ICL页面。当涉及到这些主题(机器学习和数据挖掘)时,你应该始终考虑reading materials by Andrew Moore @ CMU,我发现它非常有帮助。
但是,这是我的两分钱:
熵表示消息中包含的信息(不确定性)的期望值。由于我们在这里考虑决策树,因此当我们对属性进行分割时(即,原始熵与不同分支的熵的权重平均值之间的差异),增益是熵的差异。由于这是减少的不确定性,这只是我们通过分割该属性获得的信息。
此外,我们使用数据挖掘:基于教程的方法作为文本,当我们进行数据挖掘课程时,这是一本好的,简单的书。