标签: apache-spark hadoop amazon-s3 hdfs
假设我有一个常规的Hadoop-Yarn-Spark集群。当Spark从HDFS读取一个大文件时,该文件将分为多个分区,并由工作程序节点上的执行程序处理。然后,每个执行程序都在同一集群中进行对HDFS的物理读写。这是正确的吗?
如果是这样,那么如果我开始处理远程S3数据并从那里开始读取-只有Spark主节点会进行物理I / O(读取和写入),然后将数据传输给执行者吗?