我在Scala中使用Spark很长一段时间了。现在我第一次使用pyspark。这是在Mac上
但是当我运行pyspark时,它会转出
/Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: exec: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: cannot execute: No such file
为什么它指向1.6.2安装,似乎不再存在? Brew搜索apache-spark确实表明存在1.5。和1.6。不应该pyspark 2.2.0自动指向apache-spark 2.2.0安装吗?
答案 0 :(得分:1)
您的问题存在许多问题:
首先,PySpark 不是一个附加软件包,但它本身就是Spark的重要组成部分;换句话说,在安装Spark时,默认情况下你也会得到PySpark(即使你愿意也不能避免它)。因此,第2步应该足够了(甚至在此之前,PySpark应该可以在你的机器上使用,因为你已经使用了Spark)。
步骤1是不必要的:来自PyPi的Pyspark(即与pip
或conda
一起安装)不包含完整的Pyspark功能;它仅适用于已安装群集中的Spark安装。来自docs:
Spark的Python包装并不是要替换所有其他用例。这个Python打包版本的Spark是合适的 用于与现有集群交互(无论是Spark独立, YARN或Mesos) - 但不包含设置所需的工具 您自己的独立Spark群集。您可以下载完整版 来自Apache Spark下载页面的Spark。
注意:如果您在Spark独立群集中使用此功能,则必须确保版本(包括次要版本)与您匹配 可能会遇到奇怪的错误
基于这样的事实,正如您所说,您已经使用Spark(通过Scala),您的问题似乎与升级有关。现在,如果您使用预先构建的Spark发行版,您实际上无需安装任何内容 - 您只需下载,解压缩并设置相关的环境变量(SPARK_HOME
等) - 请参阅"upgrading" Spark上的答案,实际上也适用于首次“安装”。
答案 1 :(得分:0)
现在安装pyspark
的最简单方法是使用版本>执行pip安装。 2.2。
pip install pyspark
如果您想要使用分发(并希望同时使用jupyter
),另一种方法是:
https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
答案 2 :(得分:0)
步骤1:如果您还没有Brew,请先在终端中使用以下命令安装brew
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
步骤2:酿造完成后,请运行以下命令在Mac上安装Java。
brew cask install homebrew/cask-versions/java8
步骤3:安装Java后,运行以下命令在Mac上安装spark
brew install apache-spark
步骤4:输入pyspark -version