apache-spark - 如何将数据从S3存储桶传输到Spark工作者 - Thinbug

如何将数据从S3存储桶传输到Spark工作者

时间：2018-10-13 11:16:45

标签： apache-spark amazon-s3 hdfs rdd

当我们使用基于HDFS的textFile函数创建RDD时，它将根据块创建分区，通常在数据驻留在数据节点上的地方进行计算。

但是，当我们基于S3文件创建RDD时，如何将数据从S3存储桶传输到Spark工作者以执行？转移也涉及驾驶员吗？与HDFS相比，使用S3作为存储设备时，它们的性能也会受到影响。

此致

Neeraj

1 个答案:

答案 0 :(得分：2)

因为您暗示S3没有数据局部性。

只需要可拆分格式即可供Workers获取数据。

因此，S3较慢，但更便宜。

没有NameNode要求。

仅驱动程序才需要，例如收集和协调工人/执行者的任务。从结构上讲没有意义。