在ubuntu上为pyspark安装Apache spark

时间:2017-07-26 20:01:44

标签: python-2.7 pyspark ubuntu-16.04

在使用python(pyspark)访问的Ubuntu(16.04)本地计算机中安装Apache spark 2.0的简单和分步指南是什么?我试图搜索网络,其中大多数最终会出现一个或其他错误。

1 个答案:

答案 0 :(得分:2)

礼貌:https://www.santoshsrinivas.com/installing-apache-spark-on-ubuntu-16-04/

我正在写这些步骤,因为我看到几个步骤与预期不同(至少对于ubuntu 16.04)

以下是步骤

第1步:

http://spark.apache.org/downloads.html

下载最新的预建版本

第2步: 解压并移动Spark

cd ~/Downloads/  
tar xzvf spark-2.0.1-bin-hadoop2.7.tgz  
mv spark-2.0.1-bin-hadoop2.7/ spark  
sudo mv spark/ /usr/lib/

第3步: 安装SBT

echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list  
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823  
sudo apt-get update  
sudo apt-get install sbt

注意: - 您可能在此步骤中遇到一些问题。所以请参考最后提供的链接。

第4步: 确保安装了Java。如果不是

sudo apt-add-repository ppa:webupd8team/java  
sudo apt-get update  
sudo apt-get install oracle-java8-installer

第5步: 配置Spark

cd /usr/lib/spark/conf/  
cp spark-env.sh.template spark-env.sh  
vi spark-env.sh

并添加以下

JAVA_HOME=/usr/lib/jvm/java-8-oracle  
SPARK_WORKER_MEMORY=4g 

第6步: 配置bash文件。

使用以下命令

打开bashrc文件
vi ~/.bashrc(if you want to use vi editor)
subl ~/.basrc(if you want to use sublime)

将以下内容复制到bashrc文件中

export JAVA_HOME=/usr/lib/jvm/java-8-oracle  
export SBT_HOME=/usr/share/sbt-launcher-packaging/bin/sbt-launch.jar  
export SPARK_HOME=/usr/lib/spark  
export PATH=$PATH:$JAVA_HOME/bin  
export PATH=$PATH:$SBT_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

使用以下命令启动bash文件

source ~/.bashrc

第7步: 立即尝试

pyspark

注意:如果您遇到sbt安装(ubuntu 16.04的常见情况),请尝试以下链接

https://askubuntu.com/questions/771839/problem-installing-package-git-all/771889#771889