将CSV文件写入Azure Blob存储

时间:2019-08-23 07:05:20

标签: azure pyspark blob

我正在尝试使用pyspark分析databricks笔记本上的数据。 Blob存储已安装在databricks群集上,经过分析后,想将csv写回到blob存储中。当pyspark以分布式方式工作时,csv文件被分成小块并写入blob存储中。当我们使用pyspark进行分析时,如何克服此问题并在blob上将其写为单个csv文件。谢谢。

2 个答案:

答案 0 :(得分:1)

您真的要一个文件吗?如果是,则可以通过将所有小的csv文件合并为单个csv文件来克服此问题的唯一方法。您可以使用databricks群集上的map函数对其进行合并,也可以使用一些后台作业来完成。

在这里看看:https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html

答案 1 :(得分:0)

也请让我知道,如果我们迁移到Azure Datalake存储Gen2,是否可以克服?更优化了,csv可以作为一个文件写入吗?正如我之前提到的,分析是通过pyspark在databricks笔记本上完成的。谢谢。