数据工厂复制活动Blob - > ADLS

时间:2017-10-24 11:04:17

标签: azure-data-factory

我有一些文件在Azure上的Blob存储中累积,每小时移动到带有数据工厂的ADLS ...每小时大约有1000个文件,每个文件大小为10到60kb ......

什么是最好的组合:

"parallelCopies": ?
"cloudDataMovementUnits": ?

还有,

"concurrency": ?

使用?

目前我将所有这些设置为10,每小时切片大约需要5分钟,这似乎很慢?

可能ADLS,或Blob受到限制,我该怎么说?

1 个答案:

答案 0 :(得分:1)

在优化复制活动时,无法满足所有场景的解决方案。但是,您可以查看并找到余额。其中很大程度上取决于所复制数据的定价层/类型/源和接收器的类型。

我很确定你会遇到这篇文章。

  

https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance

这是参考性能表,根据源和目标项的定价层,这些值肯定会有所不同。

enter image description here

并行复制:

  • 这种情况发生在文件级别,因此如果您的源文件很大,因为它会对数据进行分块(来自文章),这将是有益的。
  • 在基于文件的存储之间复制数据介于1和32之间。取决于文件的大小以及用于在两个云数据存储之间复制数据的云数据移动单元(DMU)的数量,或者自身的物理配置-hosted Integration Runtime machine。
  • 默认值为4.
  • behavior副本很重要。如果设置为mergeFile,则不使用并行副本。

并发:

  • 这只是您可以并行运行的同一活动的实例数。

其他考虑因素:

压缩:

  • Codec
  • 等级

底线是你可以选择压缩,更快的压缩会增加网络流量,更慢会增加消耗的时间。

地区:

数据工厂,源和目标可能影响性能的位置或区域,特别是操作的成本。根据您的业务需求,将它们放在同一地区可能并不可行,但绝对可以探索。

特定于Blob

  

https://docs.microsoft.com/en-us/azure/storage/common/storage-performance-checklist#blobs

本文为您提供了大量提高性能的指标,但是在使用数据工厂时,我并不认为您可以在此级别上做很多事情。您可以使用应用程序监视来检查复制过程中的吞吐量。