应用错误收集

带文件名的spark read.json

时间：2016-04-20 08:53:48

标签： json apache-spark

我需要从HDFS目录中读取一堆JSON文件。在我完成处理之后，Spark需要将文件放在不同的目录中。与此同时，可能会添加更多文件，因此我需要一个由Spark读取（和处理）的文件列表，因为我不想删除尚未处理的文件。

函数read.json会立即将文件转换为DataFrames，这很酷但它不会给我wholeTextFiles这样的文件名。有没有办法在获取文件名的同时读取JSON数据？是否有从RDD（使用JSON数据）到DataFrame的转换？

1 个答案:

答案 0 :(得分：0)

从版本1.6开始，您可以使用input_file_name()获取行所在文件的名称。因此，获取所有文件的名称可以通过不同的方式完成。