应用错误收集

将CSV文件写入Azure Blob存储

时间：2019-08-23 07:05:20

标签： azure pyspark blob

我正在尝试使用pyspark分析databricks笔记本上的数据。 Blob存储已安装在databricks群集上，经过分析后，想将csv写回到blob存储中。当pyspark以分布式方式工作时，csv文件被分成小块并写入blob存储中。当我们使用pyspark进行分析时，如何克服此问题并在blob上将其写为单个csv文件。谢谢。

2 个答案:

答案 0 :(得分：1)

您真的要一个文件吗？如果是，则可以通过将所有小的csv文件合并为单个csv文件来克服此问题的唯一方法。您可以使用databricks群集上的map函数对其进行合并，也可以使用一些后台作业来完成。

在这里看看：https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html

答案 1 :(得分：0)

也请让我知道，如果我们迁移到Azure Datalake存储Gen2，是否可以克服？更优化了，csv可以作为一个文件写入吗？正如我之前提到的，分析是通过pyspark在databricks笔记本上完成的。谢谢。