C4.5和ID3算法强调实用细节

时间:2012-11-28 21:55:51

标签: algorithm data-mining decision-tree

我开始应用数据挖掘算法。现在我研究决策树。互联网上有很多关于C4.5和ID3算法的资料,但我想知道这两种算法的实用细节,优缺点和一些技术细节。如果有这种材料的链接,我会很高兴

1 个答案:

答案 0 :(得分:3)

决策树的两个优点是它们能够处理噪声数据并且它们提供了对数据的直观解释(您可以轻松地看到树中哪些属性被认为是最重要的)。一个问题是它们是贪婪算法(它们选择分支属性而不考虑它如何影响最终分类精度),因此它们不一定产生最佳树结构。决策树很容易纳入集合方法,例如random forests

C4.5是对ID3的改进,使其能够处理实值属性(ID3使用分类属性)和缺少属性。互联网上有两种算法的描述。维基百科有ID3C4.5的描述。有关这两种算法的其他说明,您可以启动here