pyspark产生EOF错误

时间:2018-07-05 08:24:29

标签: apache-spark pyspark apache-kafka

我正在创建一个Spark Kafka集成项目。

该项目的任务是从Kafka读取数据并进行结构化的流操作,然后将输出返回给Kafka。在结构化流操作中,我应用了Pandas UDF,并在该函数中应用了一些机器学习代码。我尝试使用非常小的数据集,但效果很好,现在使用的是更大的数据集(9120,5625),并收到以下错误:

  

文件“ ... / server / spark-2.3.0-bin-
  hadoop2.7 / python / lib / pyspark.zip / pyspark / worker.py”,第214行,在主   eval_type = read_int(infile)文件“ ... / server / spark-2.3.0-bin-
  hadoop2.7 / python / lib / pyspark.zip / pyspark / serializers.py“,第685行,在   read_int       引发EOFError EOFError

有人知道为什么pyspark会产生此错误吗?

更新:

我正在尝试从Kafka读取相同的数据;将其存储到Dataframe中并传递df以在控制台中打印,并得到“ java.lang.OutOFMemoryError:”

对于信息,我正在研究8GB的ram笔记本电脑,并且在Kafka中仅创建一个具有一个分区和一个代理的主题。

0 个答案:

没有答案