标签: hadoop parallel-processing decision-tree id3 c4.5
我想在ID3/C4.5上实施决策树Hadoop。任何人都可以通过想法继续前进。
ID3/C4.5
Hadoop
我很清楚算法,但我需要知道如何并行化它们。
答案 0 :(得分:0)
我会考虑将一次属性选择迭代作为一个MapReduce作业。按照这个想法,您可以为属性上的每个映射器分配以检查信息增益,并且在reduce阶段(使用单个reducer),您可以选择最佳属性。 如果计算一台机器上的单次迭代(超过所有属性)比作业开始开销(大约20-40秒)稍微长一点,我会认为这种方法是实用的。