Question

我正在尝试使用word2vec测量两个文档之间的句子的句子相似度。为了提高性能，我尝试使用pyspark运行代码。我正在使用RDD.map（）和toLocalIterator（）而不是collect（）。每当我尝试运行代码时，我都会遇到多个错误。

Python和PySpark的版本如下： ** Python版本：3.6.7和** ** Pyspark版本：2.4.3 **

这是我的代码段：

rdd1 = sc.parallelize(range(len(df)), 5).map(lambda x: process(x, df2))
print('rdd')
mapping1 = rdd1.toLocalIterator()

** df-**这是第一个文档的句子列表，我试图将其分为5个分区。 **过程-**它有2个参数，第一个文档为语意，第二个文档为句子列表，这是句子相似度函数，它使用预先训练的word2vec模型来计算从第一个文档到每个句子之间的句子相似度分数第二个文档中的所有句子。

在控制台中，在执行print语句之后。该过程运行了几分钟，我遇到以下错误。

发生的错误包括：

错误server.TransportRequestHandler：为单向消息调用RpcHandler＃receive（）时出错。 org.apache.spark.SparkException：找不到AppClient。

-无法了解此错误的可能原因 CoarseGrainedExecutorBackend：驱动程序命令关闭

-对于上述问题，我尝试调整驱动程序内存，但错误仍然存在。 _pickle.PicklingError：无法序列化对象：MemoryError：

-对于上述错误，我将spark中的默认序列化器更改为BatchedSerializer

但是仍然无法成功运行我的代码，每次在初始化map（）之后，执行程序都会通过以下消息在“ rdd.toLocalIterator（）”处停止。

“ INFO SparkContext：从关机钩子调用stop（）”，当我检查日志时，我看到了这一点。 “ INFO CoarseGrainedExecutorBackend：驱动程序命令关闭”

我想念什么吗？有什么可能的方法来克服这些错误？

谢谢。