我正在寻找一个代码片段,以找到使用scala在hadoop中的子目录下读取多个嵌套JSON文件的最佳实践。
如果我们可以在hadoop上面的JSON文件中写入其他目录中的一个文件,那就更好了。
感谢任何帮助。
由于 PG
答案 0 :(得分:0)
您可以使用sqlContext.read.json("input file path")
来读取json文件,它会返回一个DataFrame。
获得DataFrame后,只需使用df.write.json("输出文件路径")将DF写为json文件。
代码示例:如果您使用Spark 2.0
val spark = SparkSession
.builder()
.appName("Spark SQL JSON example")
.getOrCreate()
val df = spark.read.json("input/file/path")
df.write.json("output/file/path")