带文件名的spark read.json

时间:2016-04-20 08:53:48

标签: json apache-spark

我需要从HDFS目录中读取一堆JSON文件。在我完成处理之后,Spark需要将文件放在不同的目录中。与此同时,可能会添加更多文件,因此我需要一个由Spark读取(和处理)的文件列表,因为我不想删除尚未处理 的文件。

函数read.json会立即将文件转换为DataFrames,这很酷但它不会给我wholeTextFiles这样的文件名。有没有办法在获取文件名的同时读取JSON数据?是否有从RDD(使用JSON数据)到DataFrame的转换?

1 个答案:

答案 0 :(得分:0)

从版本1.6开始,您可以使用input_file_name()获取行所在文件的名称。因此,获取所有文件的名称可以通过不同的方式完成。