我正在Azure Databricks中使用以下命令尝试将文件test.csv从本地C:驱动器复制到Databricks dbfs位置,如图所示。
dbutils.fs.cp("C:/BoltQA/test.csv", "dbfs:/tmp/test_files/test.csv")
我收到此错误:
java.io.IOException: No FileSystem for scheme: C
---------------------------------------------------------------------------
ExecutionError Traceback (most recent call last)
<command-3936625823332356> in <module>
----> 1 dbutils.fs.cp("C:/test.csv", "dbfs:/tmp/test_files/test.csv")
2
/local_disk0/tmp/1605164901540-0/dbutils.py in f_with_exception_handling(*args, **kwargs)
312 exc.__context__ = None
313 exc.__cause__ = None
--> 314 raise exc
315 return f_with_exception_handling
316
请帮助。
答案 0 :(得分:1)
不幸的是,您不能使用
dbutils.fs.cp
命令将文件从本地计算机复制到Databricks File System。它仅用于复制Databricks文件系统上的文件。
有多种方法可以将文件从本地计算机上载到Azure Databricks DBFS文件夹。
方法1::使用Azure Databricks门户。
方法2:使用Databricks CLI
DBFS命令行界面(CLI)使用DBFS API向DBFS公开了易于使用的命令行界面。使用此客户端,您可以使用与Unix命令行上使用的命令类似的命令与DBFS进行交互。例如:
# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana
参考: Installing and configuring Azure Databricks CLI
方法3::使用名为DBFS Explorer的第三方工具
DBFS Explorer的创建是一种将文件上载和下载到Databricks文件系统(DBFS)的快速方法。这将适用于AWS和Azure Databricks实例。您需要在网络界面中创建一个承载令牌才能连接。
第1步::下载并安装DBFS Explorer并安装它。
第2步:打开DBFS Explorer,然后输入:Databricks URL和Personal Access Token
第3步:选择要从本地计算机上载文件的文件夹,只需将其拖放到要上载的文件夹中,然后单击上载即可。
答案 1 :(得分:0)
感谢您的答复@ CHEEKATLAPRADEEP-MSFT。
您可以在容器中装入Blob存储容器或文件夹 到Databricks文件系统(DBFS)。坐骑是指向Blob的指针 存储容器,因此数据永远不会在本地同步。参考 docs.microsoft.com