我正在尝试使用hadoop distcp命令将数据从一个azure blob位置复制到另一个blob位置(在spark scala中运行此命令)。从目的地位置,用户将查询数据。在复制转换期间,如果用户查询数据,他们可能会获得重复数据。所以,我可以锁定天蓝色的目的地位置。是否有任何最快的方式/最佳方式来复制数据与事务。
答案 0 :(得分:0)
我建议您使用 AzCopy 。
1.在同一存储帐户中将单个blob从一个容器复制到另一个容器
AzCopy /Source:https://myaccount.blob.core.windows.net/mycontainer1 /Dest:https://myaccount.blob.core.windows.net/mycontainer2 /SourceKey:key /DestKey:key /Pattern:abc.txt
2.将一个blob从一个存储帐户复制到另一个存储帐户
AzCopy /Source:https://sourceaccount.blob.core.windows.net/mycontainer1 /Dest:https://destaccount.blob.core.windows.net/mycontainer2 /SourceKey:key1 /DestKey:key2 /Pattern:abc.txt
3.将容器中的所有blob复制到另一个存储帐户
AzCopy /Source:https://sourceaccount.blob.core.windows.net/mycontainer1
/Dest:https://destaccount.blob.core.windows.net/mycontainer2 /SourceKey:key1 /DestKey:key2 /S
有关详细信息,请参阅此article。