Spark的HDFS I / O架构与S3有何不同?

时间:2019-07-14 00:42:06

标签: apache-spark hadoop amazon-s3 hdfs

假设我有一个常规的Hadoop-Yarn-Spark集群。当Spark从HDFS读取一个大文件时,该文件将分为多个分区,并由工作程序节点上的执行程序处理。然后,每个执行程序都在同一集群中进行对HDFS的物理读写。这是正确的吗?

如果是这样,那么如果我开始处理远程S3数据并从那里开始读取-只有Spark主节点会进行物理I / O(读取和写入),然后将数据传输给执行者吗?

0 个答案:

没有答案