我想了解如何设置一切能够拥有iPython笔记本和pyspark工作。
我目前有一个ec2实例。
告诉我,如果我错了,但我想我可以使用它:
django.contrib.auth.models.User
或者这个:
./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster
这两者之间真的有很大区别吗?
要编写和执行我的脚本,我应该在主节点上,对吗?
那么,我用来运行Spark的ec2实例将不会被使用?
(我必须在主节点上安装ipython笔记本?)
提前感谢您的帮助。
(我已经找了教程,但我找不到我想要的东西。
你认识好人吗?)
答案 0 :(得分:0)
您提到的第一个教程是我迄今为止发现的最好的教程。我不确定你提到的两种方法之间的区别。
我使用./spark-ec2
在EC2上成功构建了一个spark群集。让它与IPython一起工作需要一些额外的安装。
首先使用./spark-ec2
进程启动您的群集。我在以下方面取得了成功:
接下来,ssh为master,然后$cd /root/spark
运行:
MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook --ip="*"' ./bin/pyspark