如何将分区的实木复合地板文件写入Blob存储

时间:2019-05-22 09:32:41

标签: azure parquet azure-data-factory-2

我想将数据从On Premise SQL SERVER加载到ADF中具有复制活动的blob存储中,目标文件是镶木地板,此文件的大小为5 Gb。

管道运行良好,他编写了一个实木复合地板文件,现在我需要将此文件拆分为多个实木复合地板文件,以优化Poly底座的加载数据以及其他用途。

使用Spark,我们可以按照以下语法将文件分区为多个文件:

df.repartition(5).write.parquet(“ path”)

1 个答案:

答案 0 :(得分:0)

简短问题,简短答案。

分区数据:slice

实木复合地板格式:https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data

Blob存储连接器:https://docs.microsoft.com/en-us/azure/data-factory/format-parquet

希望这对您有帮助!