Question

我正在使用数据块在Python中进行练习

我正在尝试通过以下方式加载Windows文件：

diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")

我确定我的文件位于C：/abc.csv中，但系统始终返回此错误：

u'Path does not exist file:/C:/abc.csv;'

如何在Windows系统中加载文件？

Answer 1

1。将完整路径定义为变量-如果是本地路径，则每个路径都应以驱动器开头

<-

2。将路径变量设置为您的Spark通话

# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv'  # raw string
# Option 2
PATH = u'C:\\abc.csv' # unicode string

从本质上讲，您的文件路径是错误的。

Answer 2

Databricks是一种在云中运行集群的云服务。您可以使用浏览器中的笔记本与群集进行交互，但是数据块无法访问计算机上的文件。（允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送了恶意链接，则该图像，当您单击该链接时，我就可以读取您计算机上的任何文件。）

如果您使用databricks用户界面左侧的data按钮，则可以上传CSV文件并创建可在databricks集群中使用的表。

Spark中的Windows文件读取CSV

2 个答案: