标签: sql apache-spark pyspark spark-dataframe
我有大量的JSON文件分布在HDFS的许多目录中。 PySpark DataFrame API中是否有推荐的方法来读取这些数据?我知道我可以将一个目录作为参数传递给read.json函数,但是我有很多目录并且在事实听起来很痛苦之后合并这些DataFrame。
read.json