根据文档,用于cosmos db的data factory v2连接器使用bulk executor library。
Data Factory的复制活动具有参数“数据集成单位”,“复制并行度”和“写入批处理大小”。
我正在尝试寻找最佳设置,因为我确定它取决于数据大小,行等,但是我想了解它们在这种情况下的含义。
设置为自动时; “数据集成单元”和“复制并行度”似乎设置为4。当然,我确定这取决于预配置的RU / s等。我还读到像链接服务这样的关系总会忽略并行性,但是我不确定CosmosDB是否适合该支架。
复制并行度
在阅读性能建议时,它表明每个应用程序都生成了一个BulkExecutor,这与我对“复制并行度”的理解相反。
我认为“复制并行度”是线程数,即BulkExecutor产生的线程数。建议听起来好像BulkExecutor将管理它自己的线程。除非实际上不是“ maxConcurrencyPerPartitionKeyRange”参数?
似乎确实使用了写入批处理大小,当监视批处理时,我看到了从源读取的整个数据集,并将批处理写入了目标。但是,似乎BulkExecutor在内部以最佳方式处理批处理,批处理大小应该改为0还是可能很大?还是会导致集成单元上的内存问题(天蓝色或自托管)?
此外,我假定将数据工厂设置为空以进行写批处理超时时,批量执行程序在拥塞期间会无限期重试,还是会在某个时候死掉?