应用错误收集

使用控制流时，可以使用GetMetadata活动来检索Blob存储帐户中的文件列表，然后将该列表传递给每个活动，其中Sequential标志为false时以并行方式处理所有文件（并行），直到根据每个循环中定义的活动达到最大批次大小。

但是，当从Microsoft（https://docs.microsoft.com/en-us/azure/data-factory/concepts-data-flow-column-pattern）的以下文章中了解数据流时，它们表示以下内容：

映射数据流将执行得更好当Source转换遍历多个文件而不是通过For Each活动循环播放。我们建议使用通配符或源转换中的文件列表。数据流过程将通过允许在Spark内部进行循环来更快地执行簇。有关更多信息，请参见Source中的通配符。转变。

例如，如果您具有2019年7月以来的数据文件列表，则您希望在Blob存储中的文件夹中进行处理，下面是一个通配符可以在您的Source转换中使用。

DateFiles / _201907 .txt

通过使用通配符，您的管道将仅包含一个数据流活动。这将比对Blob的查找更好然后使用ForEach使用以下命令存储所有匹配文件的迭代内部执行数据流活动。

基于此发现，我配置了一个数据流任务，其中的源是文件的blob目录，它不控制循环地处理该目录中的所有文件。但是，我看不到任何在数据流中同时处理文件的选项。但是，我确实看到一个“优化”选项卡，您可以在其中设置分区选项。

此选项是仅用于将单个大文件处理为多个线程，还是控制源指向的目录中并发处理多少个文件？

该文档是否假设将每个控制循环的都设置为“顺序”（我可以看到为什么这样做是正确的，但是很难相信如果它一次在数据流中运行一个文件的话））？

数据流活动Azure Data Factory中的并发文件处理

1 个答案: