任务-读取一个csv文件,以小写形式添加2列,对文件进行排序并保存。 问题-如果应用排序,它将创建多个文件。有人可以解释一下这是怎么回事吗?
var df = spark.read
.format("csv")
.option("header", "true")
.load(i_file)
.select("Id", "Name", "Address")
df = df.withColumn("x_name", lower(col("Name")))
df = df.withColumn("x_address", lower(col("Address")))
df = df.orderBy("x_name") <---this line
df.write.option("header", "true").csv(o_file)
如果我删除orderBy,它将创建1个文件。