应用错误收集

如何将PySpark（本地计算机）连接到我的EMR集群？

时间：2016-12-01 21:01:39

标签： apache-spark amazon-ec2 pyspark emr

我已经部署了一个由Apache Spark引导的3节点AWS ElasticMapReduce集群。在本地计算机上，我可以通过SSH访问主节点：

ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com 一旦ssh进入主节点，我就可以通过pyspark访问 PySpark 。此外，（虽然不安全）我已将主节点的安全组配置为接受来自本地计算机IP地址的TCP流量，特别是在端口7077上。

但是，我仍然无法将本地 PySpark实例连接到我的群集：

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

上述命令会导致许多异常，并导致PySpark无法初始化SparkContext对象。

有谁知道如何成功创建一个远程连接，就像我上面描述的那样？

1 个答案:

答案 0 :(得分：2)

除非您的本地计算机是群集的主节点，否则您无法执行此操作。您将无法使用AWS EMR执行此操作。