将数据附加到文件

时间:2019-12-08 20:35:29

标签: scala apache-spark

请参见下面的一段代码。我得到了许多文件,如何将它们全部合并到一个文件中?实际上,附加模式不起作用,因为它会创建多个文件。我希望有一个文件。

val schema = new StructType()
        .add(StructField("title", StringType, true))
      spark.createDataFrame(rowRDD = newsInTrend, schema = schema)
        .coalesce(1).write.mode(SaveMode.Append).json("D:/data/spark/file.txt")

更新 我们需要加载分区存储的文件,然后将其保存为一个完整的文件。 代码更改如下。 @Nikk谢谢。

val schema = new StructType()
        .add(StructField("title", StringType, true))
      spark.createDataFrame(rowRDD = newsInTrend, schema = schema)
        .coalesce(1).write.format("json").mode(SaveMode.Append).save("D:/data/spark")//.show(20, false)
val df1 = spark.read.format("json").load("D:/data/spark")
df1.coalesce(1).write.format("json").mode(SaveMode.Overwrite).save("D:/data/spark/subdir")

0 个答案:

没有答案