Question

在读取任何csv时，它总是转换为3个阶段，无论csv文件是小尺寸还是大或只有文件头。每个工作总共有三个工作岗位。我的应用程序没有任何转换和动作。它只加载csv。

公共类WordCount {

public static void main(String[] args) throws InterruptedException {
    SparkSession spark = SparkSession.builder().appName("Java Spark 
       Application").master("local").getOrCreate();
    Dataset<Row> df = spark.read()
            .format("com.databricks.spark.csv")
            .option("inferschema", "true")
            .option("header", "true")
            .load("/home/ist/OtherCsv/EmptyCSV.csv");
    spark.close();
}}

Spark UI图片：

three jobs in spark UI
stages relates info
all three stages have same dag visualization
and all three jobs have same dag visualization
and this is event timeline

问题：

为什么加载或读取csv总是分成三个阶段和三个工作。
为什么在没有任何行动的情况下转换成三份工作？
如何在代码级别形成阶段？

同时阅读单个CSV文件转换为spark中的多个阶段

0 个答案: