入门 - 带有pyspark的Spark,IPython笔记本

时间:2015-10-23 15:24:21

标签: python hadoop apache-spark ipython-notebook pyspark

我想了解如何设置一切能够拥有iPython笔记本和pyspark工作。

我目前有一个ec2实例。

告诉我,如果我错了,但我想我可以使用它:

django.contrib.auth.models.User

spark.apache.org

或者这个:

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

http://docs.aws.amazon.com/

这两者之间真的有很大区别吗?

要编写和执行我的脚本,我应该在主节点上,对吗?

那么,我用来运行Spark的ec2实例将不会被使用?

(我必须在主节点上安装ipython笔记本?)

提前感谢您的帮助。

(我已经找了教程,但我找不到我想要的东西。

你认识好人吗?)

1 个答案:

答案 0 :(得分:0)

您提到的第一个教程是我迄今为止发现的最好的教程。我不确定你提到的两种方法之间的区别。

我使用./spark-ec2在EC2上成功构建了一个spark群集。让它与IPython一起工作需要一些额外的安装。

首先使用./spark-ec2进程启动您的群集。我在以下方面取得了成功:

  1. 在主节点和所有工作节点上安装Anaconda和PY4J。 Anaconda应该设置在路径的前面(例如.PATH = / home / ec2-user / anaconda2 / bin:$ PATH)。
  2. 接下来,ssh为master,然后$cd /root/spark运行:

    MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark
    
  3. 访问&lt;掌握公共DNS&gt;:8888以获得对笔记本的访问权限。如果您希望将其公开,请在master的安全组中打开端口8888。否则,请创建一个ssh隧道。