我正在使用Azure Data Lake Store(ADLS),该数据库由Azure数据工厂(ADF)管道定向,该管道从Blob存储读取并写入ADLS。在执行期间,我注意到在输出ADLS中创建了一个在源数据中不存在的文件夹。该文件夹具有名称的GUID和其中的许多文件,以及GUID。该文件夹是临时的,大约30秒后它就会消失。
这是ADLS元数据索引的一部分吗?这是ADF在处理过程中使用的东西吗?虽然它出现在门户网站的数据资源管理器中,但它是否通过API显示?我担心它可能会产生问题,即使它是一个临时结构。
任何有识之士 - 谷歌都很少见。
答案 0 :(得分:1)
因此,无论您使用何种方法上传数据并将数据复制到其中,您在此处看到的内容都是Azure Data Lake Storage所做的事情。它并非特定于Data Factory,也不是您可以控制的。
对于大文件,它基本上并行化了单个文件的读/写操作。然后,您可以在临时目录中为并行操作的每个线程获取多个较小的文件。完成后,该过程将线程连接到单个预期的目标文件中。
比较:这类似于PolyBase在SQLDW中的作用,其8个外部读取器以512MB块的形式命中文件。
我理解你的担忧。我已经完成了与此战斗的地方,操作失败,不清理临时文件。我的建议是在指定目标文件路径时明确您的下游服务。
另一件事,我在使用Visual Studio Data Lake文件浏览器工具上传大文件时遇到了问题。有时并行线程没有正确连接到单个并导致我的结构化数据集中的损坏。这与4 - 8GB区域的文件有关。请注意!
旁注。我发现PowerShell在处理上传到Data Lake Store时最可靠。
希望这有帮助。