如何将数据从S3存储桶传输到Spark工作者

时间:2018-10-13 11:16:45

标签: apache-spark amazon-s3 hdfs rdd

当我们使用基于HDFS的textFile函数创建RDD时,它将根据块创建分区,通常在数据驻留在数据节点上的地方进行计算。

但是,当我们基于S3文件创建RDD时,如何将数据从S3存储桶传输到Spark工作者以执行?转移也涉及驾驶员吗?与HDFS相比,使用S3作为存储设备时,它们的性能也会受到影响。

此致

Neeraj

1 个答案:

答案 0 :(得分:2)

因为您暗示S3没有数据局部性。

只需要可拆分格式即可供Workers获取数据。

因此,S3较慢,但更便宜。

没有NameNode要求。

仅驱动程序才需要,例如收集和协调工人/执行者的任务。从结构上讲没有意义。