apache-spark - Spark MLLIB并行多个节点

时间：2016-03-06 15:08:21

标签： apache-spark apache-spark-mllib

可以通过＆＃34; spark mllib＆＃34;提供的机器学习算法像天真的byes，随机森林在火花星团中以并行模式运行？或者我们需要改变代码？请提供一个并行运行的示例？不确定MLLIB中的并行性如何工作（映射） - 因为每个处理都需要整个训练数据集。计算是否与训练数据的子集并行运行？感谢

答案 0 :(得分：1)

Spark MLLib提供的这些算法会自动并行运行。他们期望RDD作为输入。 RDD是一种弹性分布式数据集，分布在一组计算机上。

Here是使用决策树进行分类问题的示例问题。

我强烈建议您深入探索link provided above。该页面包含大量文档和如何编写这些算法的示例，包括生成培训和测试数据集，评分，交叉验证等。

这些算法并行运行，通过对工作节点的数据子集运行计算，然后跨工作节点和主节点共享这些计算的结果。主节点收集单个计算的结果，并根据需要聚合它们以基于整个数据集做出决策。计算繁重的活动大多在工作节点上执行。