从Jupyter Notebook中的pyspark.sql使用SparkSession将CSV文件读取到Dataframe中

时间:2019-01-07 09:59:20

标签: csv dataframe jupyter-notebook pyspark-sql

我正在尝试在jupyter笔记本上使用SparkSession读取csv文件。但是,当我运行代码时,出现此错误“ Py4JJavaError:调用o99.csv时发生错误:org.apache.spark.SparkException:作业由于阶段失败而中止:阶段7.0中的任务0失败1次,最近一次失败:在阶段7.0(TID 10,本地主机,执行程序驱动程序)中丢失了任务0.0:org.apache.hadoop.fs.FSError:java.io.IOException:该进程无法访问该文件,因为另一个进程已锁定了文件的一部分”我该怎么做才能解决此错误?

我正在Windows 10上使用anaconda。我尝试过在线搜索解决方案,但过去几天我还无法解决此问题。

这是我的代码

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

file_path = r"D:\all\train.csv"

df = spark.read.csv(file_path, header=True)

这是预期的结果

spark dataframe

这是我运行代码时的回报:

Error

0 个答案:

没有答案