标签: apache-spark pyspark apache-spark-sql
我在HDFS上有火花设置。可以说我有一个文件(包含3个块,块大小为128mb,文件总大小:384mb),每个块在3个不同的节点上可用。如果我使用1个执行程序运行spark应用程序会怎样?是否所有3个块都将首先移至执行程序正在运行的那个节点,然后开始处理?