Pyspark错误:py4j.java_gateway:尝试连接到Java服务器时发生错误(127.0.0.1:50532)

时间:2018-07-16 10:33:05

标签: pyspark apache-spark-ml py4j

你好,我正在与Pyspark合作,第一次使用ML包执行情感分析项目,cofde正常工作,但突然它显示了上面提到的错误 有人可以帮忙吗?这是完整的错误描述

   ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:50532)
Traceback (most recent call last):
  File "C:\opt\spark\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip\py4j\java_gateway.py", line 852, in _get_connection
    connection = self.deque.pop()
IndexError: pop from an empty deque

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\opt\spark\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip\py4j\java_gateway.py", line 990, in start
    self.socket.connect((self.address, self.port))
ConnectionRefusedError: [WinError 10061] Aucune connexion n’a pu être établie car l’ordinateur cible l’a expressément refusée

5 个答案:

答案 0 :(得分:2)

在尝试在Docker容器中使用PySpark时遇到此错误。就我而言,该错误源于我为Spark分配的资源比Docker所能访问的更多。

答案 1 :(得分:1)

向 Spark 添加更多资源。例如,如果您在本地模式下工作,则如下配置就足够了:

spark = SparkSession.builder \
.appName('app_name') \
.master('local[*]') \
.config('spark.sql.execution.arrow.pyspark.enabled', True) \
.config('spark.sql.session.timeZone', 'UTC') \
.config('spark.driver.memory','32G') \
.config('spark.ui.showConsoleProgress', True) \
.config('spark.sql.repl.eagerEval.enabled', True) \
.getOrCreate()

答案 2 :(得分:0)

如果您正在使用Jupyter Nootbook,请仅重新启动笔记本。如果没有,那就重新启动pyspark。那应该解决问题。 我认为是因为您使用了太多的收集或其他一些与内存相关的问题。

答案 3 :(得分:0)

我在使用 colab 时遇到了同样的问题。我终止了当前会话并重新连接。它对我有用!

答案 4 :(得分:0)

可能是spark UI的端口已经被占用了,可能在这个错误之前还有其他的错误。

也许这可以帮到你:https://stackoverflow.com/questions/32820087/spark-multiple-spark-submit-in-parallel

spark-submit --conf spark.ui.port=5051