缺少文件-Azure数据工厂中的复制活动

时间:2019-12-19 09:29:54

标签: azure apache-spark pyspark bigdata parquet

我需要将一个巨大的目录(〜9 tb)复制到另一个文件夹。源文件夹分析如下:

  

帐户“ y”的文件夹“源”的文件夹统计信息:45033个文件; 1个   085个子目录;总共9201935993147字节; 920935993   占用了147个字节的空间

我正在使用ADF复制活动管道进行作业,并且在2h22m后成功终止,请参见下面的屏幕截图=>

ADF copy activity screen

您看到只写入了40502个文件,但是源包含45033个文件,另请参阅目标的文件夹统计信息:

  

帐户“ y”的文件夹“目标”的文件夹统计信息:40 466个文件; 1个   085个子目录;总9196730432647字节; 9196730432647   占用了211个字节的空间

谁能解释原因? 我尝试了两次相同的测试,但结果相同:-( 我该如何“调试”呢?为什么ADF跳过了一些文件?

非常感谢! 拉兹洛 (匈牙利布达佩斯)

0 个答案:

没有答案