我有一些文件在Azure上的Blob存储中累积,每小时移动到带有数据工厂的ADLS ...每小时大约有1000个文件,每个文件大小为10到60kb ......
什么是最好的组合:
"parallelCopies": ?
"cloudDataMovementUnits": ?
还有,
"concurrency": ?
使用?
目前我将所有这些设置为10,每小时切片大约需要5分钟,这似乎很慢?
可能ADLS,或Blob受到限制,我该怎么说?
答案 0 :(得分:1)
在优化复制活动时,无法满足所有场景的解决方案。但是,您可以查看并找到余额。其中很大程度上取决于所复制数据的定价层/类型/源和接收器的类型。
我很确定你会遇到这篇文章。
https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance
这是参考性能表,根据源和目标项的定价层,这些值肯定会有所不同。
behavior
副本很重要。如果设置为mergeFile,则不使用并行副本。其他考虑因素:
底线是你可以选择压缩,更快的压缩会增加网络流量,更慢会增加消耗的时间。
数据工厂,源和目标可能影响性能的位置或区域,特别是操作的成本。根据您的业务需求,将它们放在同一地区可能并不可行,但绝对可以探索。
https://docs.microsoft.com/en-us/azure/storage/common/storage-performance-checklist#blobs
本文为您提供了大量提高性能的指标,但是在使用数据工厂时,我并不认为您可以在此级别上做很多事情。您可以使用应用程序监视来检查复制过程中的吞吐量。