我正在尝试使用pyspark分析databricks笔记本上的数据。 Blob存储已安装在databricks群集上,经过分析后,想将csv写回到blob存储中。当pyspark以分布式方式工作时,csv文件被分成小块并写入blob存储中。当我们使用pyspark进行分析时,如何克服此问题并在blob上将其写为单个csv文件。谢谢。
答案 0 :(得分:1)
您真的要一个文件吗?如果是,则可以通过将所有小的csv文件合并为单个csv文件来克服此问题的唯一方法。您可以使用databricks群集上的map函数对其进行合并,也可以使用一些后台作业来完成。
在这里看看:https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html
答案 1 :(得分:0)
也请让我知道,如果我们迁移到Azure Datalake存储Gen2,是否可以克服?更优化了,csv可以作为一个文件写入吗?正如我之前提到的,分析是通过pyspark在databricks笔记本上完成的。谢谢。