通过遍历目录层次结构

时间:2015-09-09 12:56:02

标签: sql apache-spark pyspark spark-dataframe

我有大量的JSON文件分布在HDFS的许多目录中。 PySpark DataFrame API中是否有推荐的方法来读取这些数据?我知道我可以将一个目录作为参数传递给read.json函数,但是我有很多目录并且在事实听起来很痛苦之后合并这些DataFrame。

0 个答案:

没有答案