Question

我正在尝试将 20GB 文件从一个文件夹复制到 Azure Data Lake 中的另一个文件夹，并希望通过Data Bricks实现。我已经尝试了以下代码，但要花费一个多小时。谁能建议我如何在不到20分钟的时间内完成此任务？？

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")

Answer 1

尝试使用azure.datalake.store库，此处有更多详细信息：https://github.com/Azure/azure-data-lake-store-python

这应该防止数据块下载和重新上传文件。

Answer 2

最佳选择是使用dbutils.fs。

这将为您做到：

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)