Question

我想了解如何设置一切能够拥有iPython笔记本和pyspark工作。

我目前有一个ec2实例。

告诉我，如果我错了，但我想我可以使用它：

django.contrib.auth.models.User

（spark.apache.org）

或者这个：

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

（http://docs.aws.amazon.com/）

这两者之间真的有很大区别吗？

要编写和执行我的脚本，我应该在主节点上，对吗？

那么，我用来运行Spark的ec2实例将不会被使用？

（我必须在主节点上安装ipython笔记本？）

提前感谢您的帮助。

（我已经找了教程，但我找不到我想要的东西。

你认识好人吗？）

Answer 1

您提到的第一个教程是我迄今为止发现的最好的教程。我不确定你提到的两种方法之间的区别。

我使用./spark-ec2在EC2上成功构建了一个spark群集。让它与IPython一起工作需要一些额外的安装。

首先使用./spark-ec2进程启动您的群集。我在以下方面取得了成功：

在主节点和所有工作节点上安装Anaconda和PY4J。 Anaconda应该设置在路径的前面（例如.PATH = / home / ec2-user / anaconda2 / bin：$ PATH）。

接下来，ssh为master，然后$cd /root/spark运行：

MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark

访问＆lt;掌握公共DNS＆gt;：8888以获得对笔记本的访问权限。如果您希望将其公开，请在master的安全组中打开端口8888。否则，请创建一个ssh隧道。

入门 - 带有pyspark的Spark，IPython笔记本

1 个答案: