Question

我正在尝试在jupyter笔记本上使用SparkSession读取csv文件。但是，当我运行代码时，出现此错误“ Py4JJavaError：调用o99.csv时发生错误：org.apache.spark.SparkException：作业由于阶段失败而中止：阶段7.0中的任务0失败1次，最近一次失败：在阶段7.0（TID 10，本地主机，执行程序驱动程序）中丢失了任务0.0：org.apache.hadoop.fs.FSError：java.io.IOException：该进程无法访问该文件，因为另一个进程已锁定了文件的一部分”我该怎么做才能解决此错误？

我正在Windows 10上使用anaconda。我尝试过在线搜索解决方案，但过去几天我还无法解决此问题。

这是我的代码

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

file_path = r"D:\all\train.csv"

df = spark.read.csv(file_path, header=True)

这是预期的结果

spark dataframe

这是我运行代码时的回报：

Error

从Jupyter Notebook中的pyspark.sql使用SparkSession将CSV文件读取到Dataframe中

0 个答案: