与show方法或count一起使用时,jupyter细胞执行挂起并抛出异常

时间:2019-05-21 08:58:38

标签: pyspark jupyter-notebook jupyter

我正在jupyter hub上本地运行一些pyspark代码。我的系统RAM是32 GB。每当在某些操作(例如连接,联合或其他操作)之后使用show()或count()方法时,我的内核就会被挂起或挂掉,或者有时会抛出异常。但是没有show()或count()方法,代码可以正常工作。

我不知道是什么引起了这个问题。我正在处理的数据大小约为1 GB。

任何对此的线索将不胜感激。

大多数情况下,错误是由:java.lang.OutOfMemoryError:Java堆空间引起的,但仅当我使用show()或count()时才会出现

  1. 如果我使用以下方法,也会引发异常
m_f_1.limit(15).toPandas().head()

ERROR:root:Exception发送命令时。 追溯(最近一次通话):   在send_command的第1159行中,文件“ /home/tzade/spark-2.3.2-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”     引发Py4JNetworkError(“ Java端的响应为空”) py4j.protocol.Py4JNetworkError:Java方面的回答为空

在处理上述异常期间,发生了另一个异常:

回溯(最近通话最近):   send_command中的第985行的文件“ /home/tzade/spark-2.3.2-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”     响应= connection.send_command(命令)   send_command中的第1164行的文件“ /home/tzade/spark-2.3.2-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py”     “接收时出错”,例如proto.ERROR_ON_RECEIVE) py4j.protocol.Py4JNetworkError:接收时出错

0 个答案:

没有答案