我目前有一个由简单的复制活动组成的管道,该活动从第三方的FTP服务器获取压缩文件,解压缩文件并将它们复制到blob存储容器。
吞吐量非常低(7 KB / s),只是复制文件而不解压缩不会造成任何问题(700 KB / s,这与使用FileZilla的FTP服务器的常规下载速度一致)。 / p>
对于Data Factory团队,运行ID为:825e15a9-aba6-47ed-8656-88c9b6bc3754
以下数据集中的某些名称已被修改。
输入数据集:
{
"name": "InputDataset",
"properties": {
"linkedServiceName": {
"referenceName": "3PPFtpServer",
"type": "LinkedServiceReference"
},
"type": "FileShare",
"typeProperties": {
"compression": {
"type": "ZipDeflate",
"level": "Fastest"
},
"fileName": "sample_file.zip",
"folderPath": "/dir1/dir2/"
}
},
"type": "Microsoft.DataFactory/factories/datasets"
}
输出数据集:
{
"name": "OutputDataset",
"properties": {
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"type": "AzureBlob",
"typeProperties": {
"fileName": "",
"folderPath": "test-output/"
}
},
"type": "Microsoft.DataFactory/factories/datasets"
}
我在调整减压方面遇到了什么问题吗?
答案 0 :(得分:0)
您是否使用自托管集成运行时访问ftp服务器?或者它是Azure IR吗?
如果它是自托管的,那么您的处理能力可能不足以解压缩并上传文件更快,因此最好的计划是上传压缩文件,然后在Azure存储中解压缩,这样它将文件解压缩到云端。您将有2个复制活动和3个数据集:
活动1:将压缩文件从ftp复制到Azure存储。数据集将与您现在一样,但输出数据集将使用与输入相同类型的压缩。 活动2:将解压缩的文件从Azure存储复制到Azure存储(当然是另一个文件夹)。输入数据集将与Activity1的输出相同,输出将是您在问题中显示的数据集。
希望这有帮助!