当我们使用基于HDFS的textFile函数创建RDD时,它将根据块创建分区,通常在数据驻留在数据节点上的地方进行计算。
但是,当我们基于S3文件创建RDD时,如何将数据从S3存储桶传输到Spark工作者以执行?转移也涉及驾驶员吗?与HDFS相比,使用S3作为存储设备时,它们的性能也会受到影响。
此致
Neeraj
答案 0 :(得分:2)
因为您暗示S3没有数据局部性。
只需要可拆分格式即可供Workers获取数据。
因此,S3较慢,但更便宜。
没有NameNode要求。
仅驱动程序才需要,例如收集和协调工人/执行者的任务。从结构上讲没有意义。