ADLS实例之间的数据复制

时间:2019-07-22 11:47:14

标签: apache-spark cloudera azure-data-factory azure-data-lake distcp

使用DISTCP在ADLS的各种实例之间复制数据

大家好

希望您一切都好。 我们有一个使用案例,将ADLS用作摄取过程的不同层,只是需要您就相同的可行性提出宝贵的意见。

基础设施:将有两个ADLS实例,分别称为LAND&RAW。一旦在LAND实例中传递了验证,LAND实例将直接从源获取文件,而RAW实例将获取文件。我们还在Azure平台上托管了一个Cloudera群集,该群集将建立到两个ADLS实例的连接。

过程:我们将在一组ADLS实例中拥有一组数据和控制文件(例如,着陆)。我们需要在Cloudera集群上运行启动代码,以在Land ADLS实例中存在的数据与控制文件之间执行计数验证。验证成功后,我们希望distcp命令将数据从Land ADLS实例复制到Raw ADLS实例。我们假设Distcp实用程序将已经安装在Cloudera群集上。

你们能建议上述方法看起来不错吗? 首先,我们的问题是DISTCP实用程序是否将支持两个不同ADLS实例之间的数据移动? 我们还考虑了其​​他选项,例如ADLCopy,但Distcp显得更好。

注意:尽管我们知道Data Factory最适合上述用例,但我们并未考虑使用Azure Data Factory,因为它可能存在某些安全挑战。

1 个答案:

答案 0 :(得分:0)

如果您的用例要求您在多个存储帐户之间复制数据,则distcp是执行此操作的正确方法。

请注意,即使要将这个解决方案封装在数据工厂中,具有复制活动的管道也会调用distcp。