有人能解释一下ID3和CART算法之间的区别吗?

时间:2013-11-20 09:57:04

标签: r decision-tree rpart cart-analysis

我必须使用R软件和rpart包创建决策树。 在我的论文中,我应该首先定义ID3算法,然后实现各种决策树。

我发现rpart包不适用于ID3算法。它使用CART算法。我想了解其中的差异并解释我的论文中的差异,但我没有找到任何比较双方的文献。

你能帮帮我吗?你知道一篇论文比较两者吗?或者你能解释一下我的差异吗?

2 个答案:

答案 0 :(得分:1)

我无法访问原始文本 1,2 ,但使用了一些二手资源,这些递归("贪婪")分区之间的关键差异(&# 34;树")算法似乎是:

  1. 学习类型:

    • ID3,作为" Iterative Dichotomiser,"仅适用于二进制分类
    • CART,或"分类回归树,"是一系列算法(包括但不限于二进制分类树学习)。使用rpart(),您可以指定method='class'method='anova',但rpart可以从因变量的类型(即因子或数字)推断出这一点。
  2. 用于拆分选择的损失函数。

    • ID3,正如其他评论所提到的,根据信息增益选择其分割,信息增益是父节点与子节点(加权和)之间entropy的减少。
    • CART,当用于分类时,选择其分割以实现最小化Gini impurity的子集
  3. 有趣的是,作为一名从业者,我几乎听不到使用ID3这个术语,而CART通常被用作决策树的全能术语。 CART在R rpart包中有一个非常流行的实现。 ?rpart注意到"在大多数细节中,它遵循Breiman等。 al(1984)非常接近。"

    但是,您可以传递rpart(..., parms=list(split='information'))来覆盖默认行为,而是拆分信息增益。

    1 Quinlan,J。R. 1986. 决策树的归纳。马赫。学习。 1,1(1986年3月),81-106

    2 Breiman,Leo;弗里德曼,J。H。; Olshen,R。A。; Stone,C。J.(1984)。 分类和回归树。加利福尼亚州蒙特雷市:Wadsworth& Brooks / Cole Advanced Books&软件

答案 1 :(得分:0)

http://www.cs.umd.edu/~samir/498/10Algorithms-08.pdf

阅读论文的 1 C4.5及以上 它将澄清您的所有疑虑,帮助我。 不要因标题而沮丧,它关于不同树算法的差异。 无论如何都要读一篇好文章