火花决策树中使用了什么算法(ID3,C4.5或CART)

时间:2016-12-07 08:32:57

标签: apache-spark tree

我对MLlib中的决策树有疑问。 Spark中使用了什么算法?是ID3,C4.5还是CART?

2 个答案:

答案 0 :(得分:2)

Spark MLlib正在使用带有CART的ID3算法。

ID3仅处理分类变量,CART可以处理连续变量。 Spark决策树可以处理分类变量,因此它使用CART(在下面指定的Jira票证中我们可以看到它们还没有实现C4.5)。

在这个blog post中,您可以找到有关不同算法的一些信息,这是我从中得到答案的地方。

您可以在此Jira ticket中找到有关将其扩展到C4.5的讨论。

有关算法here之间差异的更多信息。

答案 1 :(得分:1)

如果您查看链接Apache Spark并查看该部分,

  

节点杂质和信息增益(基本算法)

你可以找到

  

目前的实施提供了两种用于分类的杂质测量(基尼杂质和熵)和一种用于回归的杂质测量(方差)

另外,如果你看看链接Decision Tree,你会发现CART(分类和回归树)算法使用基尼杂质和熵进行分类和方差减少以进行回归。