Spark中的Windows文件读取CSV

时间:2018-11-08 02:46:45

标签: python csv apache-spark databricks

我正在使用数据块在Python中进行练习

我正在尝试通过以下方式加载Windows文件:

diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")

我确定我的文件位于C:/abc.csv中,但系统始终返回此错误:

u'Path does not exist file:/C:/abc.csv;'

如何在Windows系统中加载文件?

2 个答案:

答案 0 :(得分:0)

1。将完整路径定义为变量-如果是本地路径,则每个路径都应以驱动器开头

<-

2。将路径变量设置为您的Spark通话

# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv'  # raw string
# Option 2
PATH = u'C:\\abc.csv' # unicode string

从本质上讲,您的文件路径是错误的。

答案 1 :(得分:0)

Databricks是一种在云中运行集群的云服务。您可以使用浏览器中的笔记本与群集进行交互,但是数据块无法访问计算机上的文件。 (允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送了恶意链接,则该图像,当您单击该链接时,我就可以读取您计算机上的任何文件。)

如果您使用databricks用户界面左侧的data按钮,则可以上传CSV文件并创建可在databricks集群中使用的表。