应用错误收集

通过遍历目录层次结构

时间：2015-09-09 12:56:02

标签： sql apache-spark pyspark spark-dataframe

我有大量的JSON文件分布在HDFS的许多目录中。 PySpark DataFrame API中是否有推荐的方法来读取这些数据？我知道我可以将一个目录作为参数传递给read.json函数，但是我有很多目录并且在事实听起来很痛苦之后合并这些DataFrame。

0 个答案:

没有答案