Question

我正在寻找一个代码片段，以找到使用scala在hadoop中的子目录下读取多个嵌套JSON文件的最佳实践。

如果我们可以在hadoop上面的JSON文件中写入其他目录中的一个文件，那就更好了。

感谢任何帮助。

由于 PG

Answer 1

您可以使用sqlContext.read.json("input file path")来读取json文件，它会返回一个DataFrame。

获得DataFrame后，只需使用df.write.json（＆＃34;输出文件路径＆＃34;）将DF写为json文件。

代码示例：如果您使用Spark 2.0

val spark = SparkSession
      .builder()
      .appName("Spark SQL JSON example")
      .getOrCreate()

      val df = spark.read.json("input/file/path")

      df.write.json("output/file/path")

如何使用Scala读取子目录下的多个Json文件

1 个答案: