我正在创建一个Spark Kafka集成项目。
该项目的任务是从Kafka读取数据并进行结构化的流操作,然后将输出返回给Kafka。在结构化流操作中,我应用了Pandas UDF,并在该函数中应用了一些机器学习代码。我尝试使用非常小的数据集,但效果很好,现在使用的是更大的数据集(9120,5625),并收到以下错误:
文件“ ... / server / spark-2.3.0-bin-
hadoop2.7 / python / lib / pyspark.zip / pyspark / worker.py”,第214行,在主 eval_type = read_int(infile)文件“ ... / server / spark-2.3.0-bin-
hadoop2.7 / python / lib / pyspark.zip / pyspark / serializers.py“,第685行,在 read_int 引发EOFError EOFError
有人知道为什么pyspark会产生此错误吗?
更新:
我正在尝试从Kafka读取相同的数据;将其存储到Dataframe中并传递df以在控制台中打印,并得到“ java.lang.OutOFMemoryError:”
对于信息,我正在研究8GB的ram笔记本电脑,并且在Kafka中仅创建一个具有一个分区和一个代理的主题。