我必须使用R软件和rpart包创建决策树。 在我的论文中,我应该首先定义ID3算法,然后实现各种决策树。
我发现rpart包不适用于ID3算法。它使用CART算法。我想了解其中的差异并解释我的论文中的差异,但我没有找到任何比较双方的文献。
你能帮帮我吗?你知道一篇论文比较两者吗?或者你能解释一下我的差异吗?答案 0 :(得分:1)
我无法访问原始文本 1,2 ,但使用了一些二手资源,这些递归("贪婪")分区之间的关键差异(&# 34;树")算法似乎是:
学习类型:
rpart()
,您可以指定method='class'
或method='anova'
,但rpart
可以从因变量的类型(即因子或数字)推断出这一点。 用于拆分选择的损失函数。
有趣的是,作为一名从业者,我几乎听不到使用ID3这个术语,而CART通常被用作决策树的全能术语。 CART在R rpart
包中有一个非常流行的实现。 ?rpart
注意到"在大多数细节中,它遵循Breiman等。 al(1984)非常接近。"
但是,您可以传递rpart(..., parms=list(split='information'))
来覆盖默认行为,而是拆分信息增益。
1 Quinlan,J。R. 1986. 决策树的归纳。马赫。学习。 1,1(1986年3月),81-106
2 Breiman,Leo;弗里德曼,J。H。; Olshen,R。A。; Stone,C。J.(1984)。 分类和回归树。加利福尼亚州蒙特雷市:Wadsworth& Brooks / Cole Advanced Books&软件
答案 1 :(得分:0)
http://www.cs.umd.edu/~samir/498/10Algorithms-08.pdf
阅读论文的 1 C4.5及以上 它将澄清您的所有疑虑,帮助我。 不要因标题而沮丧,它关于不同树算法的差异。 无论如何都要读一篇好文章