Azure数据工厂:遍历数百万个文件

时间:2019-06-13 15:07:12

标签: azure azure-data-factory azure-blob-storage azure-data-factory-2

以前,我在如何将多个JSON文件合并为一个文件时遇到问题, 我能够用此question的答案来解决它。

首先,我尝试通过在输入数据集的连接部分的文件名中使用通配符来处理某些文件。但是当我删除文件名时,理论上告诉我,当我在复制活动的源代码部分中选中“递归复制”选项时,所有文件夹中的所有文件都会被递归加载。

问题是,当我从数据集的输入中删除文件名后手动触发管道时,仅加载了一些文件,任务成功结束,但仅加载了约400多个文件,每个文件夹有1M +文件,我想通过合并源中的所有小JSON文件来创建BIG csv文件(我已经能够通过在复制活动中映射模式来创建csv文件)。

enter image description here enter image description here

1 个答案:

答案 0 :(得分:0)

它可能由于超时或内存不足异常而停止。

一种解决方案是使用

遍历目录的内容
  

Directory.EnumerateFiles(searchDir)

这样,您可以处理所有文件,而不必同时在内存中存储所有文件的列表/内容。