如何在Databricks中使用Spark将JSON文件并行写入已安装目录

时间:2019-04-09 13:18:30

标签: apache-spark databricks azure-databricks

我有一个50,000个JSON文件的RDD,我需要将这些文件写入Spark(Databricks)中的已安装目录。装入的路径类似于/mnt/myblob/mydata(使用Azure)。我尝试了以下操作,但事实证明我无法在Spark作业中使用dbutils

def write_json(output_path, json_data):
     dbutils.fs.put(output_path, json_data)

我目前要做的是将数据本地(带到驱动程序),然后调用write_json方法。

records = my_rdd.collect()
for r in records:
     write_json(r['path'], r['json'])

此方法有效,但要花很长时间才能完成。有没有更快的方法?

1 个答案:

答案 0 :(得分:1)

您可以使用map并行执行此操作。

def write_json(output_path, json_data):
    with open(output_path, "w") as f:
        f.write(json_data)

my_rdd.map(lambda r: write_json(r['path'], r['json']))