我对MLlib
中的决策树有疑问。 Spark中使用了什么算法?是ID3,C4.5还是CART?
答案 0 :(得分:2)
Spark MLlib正在使用带有CART的ID3算法。
ID3仅处理分类变量,CART可以处理连续变量。 Spark决策树可以处理分类变量,因此它使用CART(在下面指定的Jira票证中我们可以看到它们还没有实现C4.5)。
在这个blog post中,您可以找到有关不同算法的一些信息,这是我从中得到答案的地方。
您可以在此Jira ticket中找到有关将其扩展到C4.5的讨论。
有关算法here之间差异的更多信息。
答案 1 :(得分:1)
如果您查看链接Apache Spark并查看该部分,
节点杂质和信息增益(基本算法)
你可以找到
目前的实施提供了两种用于分类的杂质测量(基尼杂质和熵)和一种用于回归的杂质测量(方差)
另外,如果你看看链接Decision Tree,你会发现CART(分类和回归树)算法使用基尼杂质和熵进行分类和方差减少以进行回归。