安装PySpark

时间:2014-08-18 17:41:56

标签: python install apache-spark

我正在尝试安装PySpark并跟随instructions并从我安装了Spark的群集节点上的命令行运行它:

$ sbt/sbt assembly

这会产生以下错误:

-bash: sbt/sbt: No such file or directory

我尝试下一个命令:

$ ./bin/pyspark

我收到此错误:

-bash: ./bin/pyspark: No such file or directory

我觉得我错过了一些基本的东西。 缺什么? 我安装了spark,并且可以使用以下命令访问它:

$ spark-shell

我在节点上有python并且能够使用以下命令打开python:

$ python

2 个答案:

答案 0 :(得分:8)

您目前的工作目录是什么? sbt/sbt./bin/pyspark命令与包含Spark代码($SPARK_HOME)的目录相关,因此在运行这些命令时您应该在该目录中。

请注意,Spark提供的pre-built binary distributions与许多常见的Hadoop发行版兼容;如果您使用其中一个发行版,这可能是一个更容易的选择。

此外,它看起来像你链接到Spark 0.9.0文档;如果您从头开始构建Spark,我建议您遵循latest version of the documentation

答案 1 :(得分:2)

SBT用于构建Scala项目。如果您是Scala / SBT / Spark的新手,那么您将以困难的方式做事。

安装"最简单的方法Spark就是简单地下载Spark(我推荐Spark 1.6.1 - 个人偏好)。然后将该文件解压缩到您希望Spark"已安装的目录中。在C:/ spark-folder(Windows)或/ home / usr / local / spark-folder(Ubuntu)中。

将其安装到所需目录后,需要设置环境变量。根据您的操作系统,这将取决于;但是,此步骤不需要运行Spark(即pyspark)。

如果你没有设置你的环境变量,或者不知道怎么做,另一种方法就是在终端窗口上转到你的目录,cd C:/ spark-folder(Windows)或cd / home / usr / local / spark-folder(Ubuntu)然后输入

./bin/pyspark

和火花应该运行。