我需要从HDFS目录中读取一堆JSON文件。在我完成处理之后,Spark需要将文件放在不同的目录中。与此同时,可能会添加更多文件,因此我需要一个由Spark读取(和处理)的文件列表,因为我不想删除尚未处理 的文件。
函数read.json
会立即将文件转换为DataFrames,这很酷但它不会给我wholeTextFiles
这样的文件名。有没有办法在获取文件名的同时读取JSON数据?是否有从RDD(使用JSON数据)到DataFrame的转换?
答案 0 :(得分:0)
从版本1.6开始,您可以使用input_file_name()
获取行所在文件的名称。因此,获取所有文件的名称可以通过不同的方式完成。