我可以在Spark的每个工作线程中拥有文件的副本吗?

时间:2018-10-04 16:34:05

标签: file apache-spark hdfs

我正在用hdfssaveAsTextfile中写一些文件,我想知道是否可以读取它们并在每个工作程序中都有一个副本。 用sc.TextFile读取它们会创建一个RDD,因此每个工人中只能有一个分区。 还有其他方法吗?也许以某种方式阅读了它以进行驱动和广播?

1 个答案:

答案 0 :(得分:-2)

是的,如果您希望在所有执行程序节点中都有少量数据可用,通常我们会使用广播。