标签: apache-spark rdd
最近,我看到了一个在线视频,该视频的讲师建议在生产环境中永远不要使用“火花并行化(sc.parallelize)”方法,该方法仅适用于原型设计。
我知道它用于在Spark中将集合转换为rdd。而且根据视频,不建议这样做。
试图对此做一些研究,结果空白。想了解问题所在,因为我已经看到这种方法已在大规模生产中使用,是否有改进的余地?另外推荐的方法是什么?