Pyspark在驱动程序(python3.5)和辅助程序(python2.7)中具有不同的版本

时间:2019-01-28 07:25:25

标签: python-3.x python-2.7 pyspark jupyter-notebook hdfs

我同时使用hdfs和普通用户模式。本地的默认Python版本是3.5,而hdfs是2.7。当我尝试在hdfs中加载文件并尝试在jupyter中显示它时,会弹出此错误。

enter image description here

我试图编辑spark-env.sh文件,但是当我寻找它时,发现了很多spark -env.sh文件,除了白白地编辑了所有文件外,我在堆栈溢出中发现了类似的问题,但是没有似乎可以解决我的特殊问题。

如果您需要任何信息,请在评论中让我知道,因为我不知道这里需要哪种信息。

1 个答案:

答案 0 :(得分:0)

您必须确保spark-env.sh中的以下environment variables指向节点上所有(!)上具有相同(!)版本的python二进制可执行文件:

  • PYSPARK_DRIVER_PYTHON
  • PYSPARK_PYTHON

如果当前未设置PYSPARK_PYTHON,请进行设置。 PYSPARK_PYTHON为执行程序和驱动程序定义可执行文件。当您仅将PYSPARK_DRIVER_PYTHON设置为python3.5时,执行程序仍将使用默认的python executeable,即python2.7,这会引起您的理解。