我正在使用数据块在Python中进行练习
我正在尝试通过以下方式加载Windows文件:
diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")
我确定我的文件位于C:/abc.csv中,但系统始终返回此错误:
u'Path does not exist file:/C:/abc.csv;'
如何在Windows系统中加载文件?
答案 0 :(得分:0)
1。将完整路径定义为变量-如果是本地路径,则每个路径都应以驱动器开头
<-
2。将路径变量设置为您的Spark通话
# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv' # raw string
# Option 2
PATH = u'C:\\abc.csv' # unicode string
从本质上讲,您的文件路径是错误的。
答案 1 :(得分:0)
Databricks是一种在云中运行集群的云服务。您可以使用浏览器中的笔记本与群集进行交互,但是数据块无法访问计算机上的文件。 (允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送了恶意链接,则该图像,当您单击该链接时,我就可以读取您计算机上的任何文件。)
如果您使用databricks用户界面左侧的data按钮,则可以上传CSV文件并创建可在databricks集群中使用的表。