Question

我正在遵循本教程（https://www.guru99.com/pyspark-tutorial.html）并尝试使用sqlContext.read.csv读取csv文件，但此错误显示：'路径不存在：file：/ C：/ Users / asus / AppData / Local / Temp / spark-62c50c87-060e-49f7-b331-111abfa496f3 / userFiles-da6cdfff-ea8a-426c-b4f4-fe5a15c67794 / adult.csv;'

我听说可能必须在同一共享文件系统的所有节点上复制文件或使用HDFS，但是我不知道该怎么做。

这是代码：

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.csv(SparkFiles.get("adult.csv"), header=True, inferSchema= True)

这是我得到的结果：

AnalysisException: 'Path does not exist: file:/C:/Users/asus/AppData/Local/Temp/spark-62c50c87-060e-49f7-b331-111abfa496f3/userFiles-da6cdfff-ea8a-426c-b4f4-fe5a15c67794/adult.csv;'

Answer 1

您应按照粘贴的网站上的说明进行操作，先执行以下操作：

url = "https://raw.githubusercontent.com/guru99-edu/R-Programming/master/adult_data.csv"
from pyspark import SparkFiles
sc.addFile(url)
sqlContext = SQLContext(sc)

然后您可以使用read.csv加载文件：

df = sqlContext.read.csv(SparkFiles.get("adult.csv"), header=True, inferSchema= True)

sc.addFile(url)设置SparkFiles在get函数中使用的根目录。您可以运行此命令以检查当前的根目录：

SparkFiles.getRootDirectory()

它应该看起来像这样：

C:/Users/asus/AppData/Local/Temp/spark-62c50c87-060e-49f7-b331-111abfa496f3/userFiles-da6cdfff-ea8a-426c-b4f4-fe5a15c67794/

因此，当您调用SparkFiles.get('adult.csv')时，Spark正在该目录下查找文件，这就是为什么您看到错误消息的原因。

另一种解决方案是下载文件，放入本地目录，然后运行：

df = spark.read.csv(your_local_path_to_adult.csv, header=True, inferSchema= True)

在Pyspark中导入csv时如何修复“路径不存在”

1 个答案: