应用错误收集

Spark的HDFS I / O架构与S3有何不同？

时间：2019-07-14 00:42:06

标签： apache-spark hadoop amazon-s3 hdfs

假设我有一个常规的Hadoop-Yarn-Spark集群。当Spark从HDFS读取一个大文件时，该文件将分为多个分区，并由工作程序节点上的执行程序处理。然后，每个执行程序都在同一集群中进行对HDFS的物理读写。这是正确的吗？

如果是这样，那么如果我开始处理远程S3数据并从那里开始读取-只有Spark主节点会进行物理I / O（读取和写入），然后将数据传输给执行者吗？

0 个答案:

没有答案