Spark MLLIB并行多个节点

时间:2016-03-06 15:08:21

标签: apache-spark apache-spark-mllib

可以通过" spark mllib"提供的机器学习算法像天真的byes,随机森林在火花星团中以并行模式运行?或者我们需要改变代码?请提供一个并行运行的示例?不确定MLLIB中的并行性如何工作(映射) - 因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行? 感谢

1 个答案:

答案 0 :(得分:1)

Spark MLLib提供的这些算法会自动并行运行。他们期望RDD作为输入。 RDD是一种弹性分布式数据集,分布在一组计算机上。

Here是使用决策树进行分类问题的示例问题。

我强烈建议您深入探索link provided above。该页面包含大量文档和如何编写这些算法的示例,包括生成培训和测试数据集,评分,交叉验证等。

这些算法并行运行,通过对工作节点的数据子集运行计算,然后跨工作节点和主节点共享这些计算的结果。主节点收集单个计算的结果,并根据需要聚合它们以基于整个数据集做出决策。计算繁重的活动大多在工作节点上执行。