Question

我编写了一个python pyspark脚本，该脚本从data中提取特定功能。该脚本可以在单个file.json上正常运行，并返回一个包含我所有功能的数据框作为输出。我的问题是我需要一次在整个数据集（包含json文件的文件夹）上运行脚本。谁能建议一个好方法吗？谢谢

代码示例：

sc.map(mapper).reduce(reducer)

Answer 1

您可以按以下方式使用：

finalDF = spark.read.json('/path/to/json/directory/*.json')