我想将数据从On Premise SQL SERVER加载到ADF中具有复制活动的blob存储中,目标文件是镶木地板,此文件的大小为5 Gb。
管道运行良好,他编写了一个实木复合地板文件,现在我需要将此文件拆分为多个实木复合地板文件,以优化Poly底座的加载数据以及其他用途。
使用Spark,我们可以按照以下语法将文件分区为多个文件:
df.repartition(5).write.parquet(“ path”)
答案 0 :(得分:0)
简短问题,简短答案。
分区数据:slice
实木复合地板格式:https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data
Blob存储连接器:https://docs.microsoft.com/en-us/azure/data-factory/format-parquet
希望这对您有帮助!