如何使用Scala读取子目录下的多个Json文件

时间:2016-09-29 04:16:05

标签: json scala hadoop

我正在寻找一个代码片段,以找到使用scala在hadoop中的子目录下读取多个嵌套JSON文件的最佳实践。

如果我们可以在hadoop上面的JSON文件中写入其他目录中的一个文件,那就更好了。

感谢任何帮助。

由于 PG

1 个答案:

答案 0 :(得分:0)

您可以使用sqlContext.read.json("input file path")来读取json文件,它会返回一个DataFrame。

获得DataFrame后,只需使用df.write.json("输出文件路径")将DF写为json文件。

代码示例:如果您使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")