在pip安装pyspark之后运行pyspark

时间:2017-09-18 19:01:38

标签: pip pyspark

我想在家用机器上安装pyspark。我做了

pip install pyspark
pip install jupyter

两者似乎运作良好。

但是当我尝试运行pyspark时,我得到了

pyspark
Could not find valid SPARK_HOME while searching ['/home/user', '/home/user/.local/bin']

SPARK_HOME应该设置为什么?

5 个答案:

答案 0 :(得分:14)

我刚刚遇到了同样的问题,但事实证明pip install pyspark下载的火花分配在本地模式下效果很好。 Pip只是没有设置合适的SPARK_HOME。但是当我手动设置时,pyspark就像一个魅力(没有下载任何额外的包)。

$ pip3 install --user pyspark
Collecting pyspark
  Downloading pyspark-2.3.0.tar.gz (211.9MB)
    100% |████████████████████████████████| 211.9MB 9.4kB/s 
Collecting py4j==0.10.6 (from pyspark)
  Downloading py4j-0.10.6-py2.py3-none-any.whl (189kB)
    100% |████████████████████████████████| 194kB 3.9MB/s 
Building wheels for collected packages: pyspark
  Running setup.py bdist_wheel for pyspark ... done
  Stored in directory: /home/mario/.cache/pip/wheels/4f/39/ba/b4cb0280c568ed31b63dcfa0c6275f2ffe225eeff95ba198d6
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.6 pyspark-2.3.0

$ PYSPARK_PYTHON=python3 SPARK_HOME=~/.local/lib/python3.5/site-packages/pyspark pyspark
Python 3.5.2 (default, Nov 23 2017, 16:37:01) 
[GCC 5.4.0 20160609] on linux
Type "help", "copyright", "credits" or "license" for more information.
2018-03-31 14:02:39 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.0
      /_/

Using Python version 3.5.2 (default, Nov 23 2017 16:37:01)
>>>

希望有所帮助: - )

答案 1 :(得分:6)

来自PyPi的Pyspark(即与pip一起安装)不包含完整的Pyspark功能;它仅适用于现有集群中的Spark安装[编辑:或仅在本地模式 - 请参阅接受的答案]。来自docs

  

Spark的Python包装并不是要替换所有其他用例。这个Python打包版本的Spark适合与现有集群(无论是Spark独立,YARN还是Mesos)进行交互 - 但不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

     

注意:如果您在Spark独立群集中使用此功能,则必须使用此功能   确保版本(包括次要版本)匹配或您可以   遇到奇怪的错误

您应该按照here所述下载完整的Spark发行版。

答案 2 :(得分:1)

要安装Spark,请确保已安装Java 8或更高版本。然后转到Spark Downloads页以选择最新的Spark版本,针对Hadoop的预构建软件包并下载。解压缩文件并移至您的/ opt(或与此相关的任何文件夹,但请记住将其移至何处)

varname

然后创建一个符号链接。这样,您可以下载和使用多个Spark版本。

mv spark-2.4.4-bin-hadoop2.7 /opt/spark-2.4.4

在您的ln -s /opt/spark-2.4.4 /opt/spark 中添加以下内容,以告诉bash在哪里可以找到Spark。

.bash_profile

最后,要设置Spark以使用python3,请将以下内容添加到/opt/spark/conf/spark-env.sh文件中

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH

答案 3 :(得分:0)

如果您使用的是Python 3.0+ 然后打开anaconda提示 执行以下命令 pip3 install --user pyspark

答案 4 :(得分:0)

最简单的方法 - 打开 anaconda 提示符并输入 pip install --user pyspark / pip3 install --user pyspark