Databricks:将dbfs:/ FileStore文件下载到我的本地计算机?

时间:2018-02-27 23:36:41

标签: curl filesystems databricks

我使用saveAsTextFile()将Spark作业的结果存储在dbfs:/ FileStore / my_result文件夹中。

我可以访问不同的" part-xxxxx"使用Web浏览器的文件,但我想自动将所有文件下载到本地计算机的过程。

我曾尝试使用cURL,但我找不到RestAPI命令来下载dbfs:/ FileStore文件。

问题:如何将dbfs:/ FileStore文件下载到本地计算机?

我正在使用Databricks Community Edition在大学教授大数据分析的本科课程。我在本地计算机上安装了Windows 7。我已经检查了cURL和_netrc文件是否已正确安装和配置,因为我设法成功运行RestAPI提供的一些命令。

非常感谢您的帮助! 最好的祝福, 纳乔

2 个答案:

答案 0 :(得分:3)

将FileStore文件下载到本地计算机有几个选项。

更简单的选项:

  • 安装Databricks CLI,使用Databricks凭据对其进行配置,然后使用CLI的dbfs cp命令。例如:dbfs cp dbfs:/FileStore/test.txt ./test.txt。如果要下载整个文件夹,可以使用dbfs cp -r
  • 从登录Databricks的浏览器中,导航至https://<YOUR_DATABRICKS_INSTANCE_NAME>.cloud.databricks.com/files/。如果您使用的是Databricks Community Edition,则可能需要使用稍微不同的路径。此下载方法在FileStore docs
  • 中有更详细的描述

高级选项:

  • 使用DBFS REST API。您可以使用read API调用访问文件内容。要下载大文件,您可能需要发出多个read调用来访问完整文件的块。

答案 1 :(得分:0)

使用浏览器,您可以访问文件存储中的单个文件。  您无法访问甚至无法列出目录。因此,您首先必须将一些文件放入文件存储中。如果您在“ / FileStore / example_directory /”中有一个文件“ example.txt”,则可以通过以下URL下载该文件:

https://community.cloud.databricks.com/files/example_directory/example.txt?o=###

在该URL中,“ ###”必须替换为您在社区版URL末尾找到的长号(登录到社区版帐户后)。

添加评论·分享

相关问题