在MacBook上安装pyspark

时间:2017-09-24 07:15:09

标签: apache-spark pyspark homebrew

我在Scala中使用Spark很长一段时间了。现在我第一次使用pyspark。这是在Mac上

  1. 首先我使用conda install pyspark安装了pyspark,并安装了pyspark 2.2.0
  2. 我使用brew install apache-spark安装了spark本身,似乎安装了apache-spark 2.2.0
  3. 但是当我运行pyspark时,它会转出

    /Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file or directory
    /Users/me/anaconda/bin/pyspark: line 77: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: No such file or directory
    /Users/me/anaconda/bin/pyspark: line 77: exec: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: cannot execute: No such file
    

    为什么它指向1.6.2安装,似乎不再存在? Brew搜索apache-spark确实表明存在1.5。和1.6。不应该pyspark 2.2.0自动指向apache-spark 2.2.0安装吗?

3 个答案:

答案 0 :(得分:1)

您的问题存在许多问题:

首先,PySpark 是一个附加软件包,但它本身就是Spark的重要组成部分;换句话说,在安装Spark时,默认情况下你也会得到PySpark(即使你愿意也不能避免它)。因此,第2步应该足够了(甚至在此之前,PySpark应该可以在你的机器上使用,因为你已经使用了Spark)。

步骤1是不必要的:来自PyPi的Pyspark(即与pipconda一起安装)不包含完整的Pyspark功能;它仅适用于已安装群集中的Spark安装。来自docs

  

Spark的Python包装并不是要替换所有其他用例。这个Python打包版本的Spark是合适的   用于与现有集群交互(无论是Spark独立,   YARN或Mesos) - 但不包含设置所需的工具   您自己的独立Spark群集。您可以下载完整版   来自Apache Spark下载页面的Spark。

     

注意:如果您在Spark独立群集中使用此功能,则必须确保版本(包括次要版本)与您匹配   可能会遇到奇怪的错误

基于这样的事实,正如您所说,您已经使用Spark(通过Scala),您的问题似乎与升级有关。现在,如果您使用预先构建的Spark发行版,您实际上无需安装任何内容 - 您只需下载,解压缩并设置相关的环境变量(SPARK_HOME等) - 请参阅"upgrading" Spark上的答案,实际上也适用于首次“安装”。

答案 1 :(得分:0)

现在安装pyspark的最简单方法是使用版本>执行pip安装。 2.2。

pip install pyspark

如果您想要使用分发(并希望同时使用jupyter),另一种方法是: https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f

答案 2 :(得分:0)

步骤1:如果您还没有Brew,请先在终端中使用以下命令安装brew

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

步骤2:酿造完成后,请运行以下命令在Mac上安装Java。

brew cask install homebrew/cask-versions/java8

步骤3:安装Java后,运行以下命令在Mac上安装spark

brew install apache-spark

步骤4:输入pyspark -version