为Spark安装正确的python版本

时间:2015-04-29 11:57:22

标签: python-2.7 numpy apache-spark

我在我的机器上使用Python 2.7.6

$ python --version
Python 2.7.6

我在我的机器上Spark 1.1.0依赖于Python 2.7.6。如果我执行:

user@user:~/bin/spark-1.1.0$ ./bin/pyspark

我得到了

Python 2.7.6 (default, Mar 22 2014, 22:59:56) 
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
.
.
.

今天我安装了Spark 1.3.1的新预构建版本(我不知道为什么,但是依赖于python 2.7.5)。如果我现在为新版本执行相同的命令:

user@user:~/bin/spark-1.3.1-bin-hadoop2.6$ ./bin/pyspark

我找回旧的Python版本

Python 2.7.5 (default, Jun 18 2014, 09:37:37) 
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
.
.
.

主要区别在于,在较旧的Spark版本中,我可以执行import numpy,而不是新版本。

我在.bashrc文件中创建了Python的下一个路径:

export PYTHONPATH=$PYTHONPATH:usr/lib/python2.7

我找不到在Python中区分版本2.7.6和2.7.5的方法,因此我不知道存放python 2.7.6的地方(命令{{1} } 不见了)。

3 个答案:

答案 0 :(得分:0)

您可以设置pyspark中使用的python可执行文件,并通过environmet变量“PYSPARK_PYTHON”设置spark-submit。

例如,

PYSPARK_PYTHON = / opt / local / python-2.7 / bin / python pyspark

答案 1 :(得分:0)

我通过从HD删除python2.7.5解决了这个问题。主题可以关闭

答案 2 :(得分:0)

我运行它并且它工作得非常好。 “导出PYSPARK_PYTHON = python3”