如何使用数据集将文件保存在spark中?

时间:2018-04-13 02:43:29

标签: apache-spark hadoop

我需要做的是将数据集保存到Hadoop,我的代码:

val df = spark.read.textFile("hdfs://path/to/file")
              .flatMap(i => i.split("\\s+"))
              .groupBy("value").count.toDF("word","count")
              .write.json("hdfs://path/to/myjson.json")

但是当我转到Hadoop时,myjson.json不是json文件而是文件夹。当我再次使用代码spark.read.json("hdfs://path/to/myjson.json").show读取此文件夹时,这正是我想要的。 我的问题是,如何将数据集保存到文件而不是文件夹?

0 个答案:

没有答案