了解Spark并行化方法

时间:2018-11-26 15:42:51

标签: apache-spark rdd

最近,我看到了一个在线视频,该视频的讲师建议在生产环境中永远不要使用“火花并行化(sc.parallelize)”方法,该方法仅适用于原型设计。

我知道它用于在Spark中将集合转换为rdd。而且根据视频,不建议这样做。

试图对此做一些研究,结果空白。想了解问题所在,因为我已经看到这种方法已在大规模生产中使用,是否有改进的余地?另外推荐的方法是什么?

0 个答案:

没有答案