Question

我在Scala中使用Spark很长一段时间了。现在我第一次使用pyspark。这是在Mac上

首先我使用conda install pyspark安装了pyspark，并安装了pyspark 2.2.0
我使用brew install apache-spark安装了spark本身，似乎安装了apache-spark 2.2.0

但是当我运行pyspark时，它会转出

/Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: exec: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: cannot execute: No such file

为什么它指向1.6.2安装，似乎不再存在？ Brew搜索apache-spark确实表明存在1.5。和1.6。不应该pyspark 2.2.0自动指向apache-spark 2.2.0安装吗？

Answer 1

您的问题存在许多问题：

首先，PySpark 不是一个附加软件包，但它本身就是Spark的重要组成部分;换句话说，在安装Spark时，默认情况下你也会得到PySpark（即使你愿意也不能避免它）。因此，第2步应该足够了（甚至在此之前，PySpark应该可以在你的机器上使用，因为你已经使用了Spark）。

步骤1是不必要的：来自PyPi的Pyspark（即与pip或conda一起安装）不包含完整的Pyspark功能;它仅适用于已安装群集中的Spark安装。来自docs：

Spark的Python包装并不是要替换所有其他用例。这个Python打包版本的Spark是合适的   用于与现有集群交互（无论是Spark独立，   YARN或Mesos） - 但不包含设置所需的工具   您自己的独立Spark群集。您可以下载完整版   来自Apache Spark下载页面的Spark。

注意：如果您在Spark独立群集中使用此功能，则必须确保版本（包括次要版本）与您匹配   可能会遇到奇怪的错误

基于这样的事实，正如您所说，您已经使用Spark（通过Scala），您的问题似乎与升级有关。现在，如果您使用预先构建的Spark发行版，您实际上无需安装任何内容 - 您只需下载，解压缩并设置相关的环境变量（SPARK_HOME等） - 请参阅"upgrading" Spark上的答案，实际上也适用于首次“安装”。

Answer 2

现在安装pyspark的最简单方法是使用版本＆gt;执行pip安装。 2.2。

pip install pyspark

如果您想要使用分发（并希望同时使用jupyter），另一种方法是： https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f

Answer 3

步骤1：如果您还没有Brew，请先在终端中使用以下命令安装brew

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

步骤2：酿造完成后，请运行以下命令在Mac上安装Java。

brew cask install homebrew/cask-versions/java8

步骤3：安装Java后，运行以下命令在Mac上安装spark

brew install apache-spark

步骤4：输入pyspark -version

在MacBook上安装pyspark

3 个答案: