应用错误收集

我正在创建一个Spark Kafka集成项目。

该项目的任务是从Kafka读取数据并进行结构化的流操作，然后将输出返回给Kafka。在结构化流操作中，我应用了Pandas UDF，并在该函数中应用了一些机器学习代码。我尝试使用非常小的数据集，但效果很好，现在使用的是更大的数据集（9120,5625），并收到以下错误：

文件“ ... / server / spark-2.3.0-bin-
  hadoop2.7 / python / lib / pyspark.zip / pyspark / worker.py”，第214行，在主   eval_type = read_int（infile）文件“ ... / server / spark-2.3.0-bin-
  hadoop2.7 / python / lib / pyspark.zip / pyspark / serializers.py“，第685行，在   read_int       引发EOFError EOFError

有人知道为什么pyspark会产生此错误吗？

更新：

我正在尝试从Kafka读取相同的数据；将其存储到Dataframe中并传递df以在控制台中打印，并得到“ java.lang.OutOFMemoryError：”

对于信息，我正在研究8GB的ram笔记本电脑，并且在Kafka中仅创建一个具有一个分区和一个代理的主题。

pyspark产生EOF错误

0 个答案: