Databricks - 将 dbfs:/FileStore 文件下载到我的本地机器

时间:2021-03-18 06:11:13

标签: databricks azure-databricks

通常我使用以下 URL 将文件从 Databricks DBFS FileStore 下载到我的本地计算机。

*https://<MY_DATABRICKS_INSTANCE_NAME>/fileStore/?o=<NUMBER_FROM_ORIGINAL_URL>*

但是,这次没有下载文件,而是将 URL 引导到 Databricks 主页。 有人对如何将文件从 DBFS 下载到本地有任何建议吗?或者应该如何修复 URL 以使其正常工作?

任何建议将不胜感激!

PJ

1 个答案:

答案 0 :(得分:3)

<块引用>

方法 1:使用 Databricks 门户 GUI,您可以下载完整结果(最多 1 百万行)。

enter image description here

<块引用>

方法 2: 使用 Databricks CLI

要下载完整结果,首先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地机器,如下所示。

dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"

您可以使用 DBFS CLI、DBFS API、Databricks 文件系统实用程序 (dbutils.fs)、Spark API 和本地文件 API 访问 DBFS 对象。

在 Spark 集群中,您可以使用 Databricks 文件系统实用程序、Spark API 或本地文件 API 访问 DBFS 对象。

在本地计算机上,您可以使用 Databricks CLIDBFS API 访问 DBFS 对象。

参考: Azure Databricks – Access DBFS

DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开易于使用的命令行界面。使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 交互。例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

参考: Installing and configuring Azure Databricks CLI

<块引用>

方法 3:使用名为 DBFS Explorer 的第三方工具

DBFS Explorer 的创建是为了快速上传和下载文件到 Databricks 文件系统 (DBFS)。这将适用于 Databricks 的 AWS 和 Azure 实例。您需要在 Web 界面中创建不记名令牌才能进行连接。

enter image description here