如何在远程Spark集群上运行本地Python脚本?

时间:2018-11-02 16:17:17

标签: python amazon-web-services amazon-ec2 pyspark amazon-emr

我在Jupyter笔记本中运行了本地Python脚本,该脚本在计算机上运行的本地Spark集群上运行作业:

sc = pyspark.SparkContext(appName="test")
sqlCtx = pyspark.SQLContext(sc)

如何将其更改为连接字符串,以在AWS的EMR Spark集群上运行作业?

这是可能的,还是在SSH进入远程集群时必须使用spark-submit函数?

2 个答案:

答案 0 :(得分:1)

您必须使用spark-submit。我不认为您可以将本地脚本连接到EMR群集,因为您的主节点必须是本地节点。

以下是类似的帖子,可能会对您有所帮助:How to connect to Spark EMR from the locally running Spark Shell 但是,如果希望重复使用代码,则将Spark作业添加为EMR步骤只是提交代码的另一种方式。

如果您的目标是在EMR群集顶部使用Jupyter笔记本,请参阅此处。 https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/

答案 1 :(得分:0)

如果您想使用Jupyter笔记本并想在远程EMR群集上运行代码,则也可以使用EMR笔记本。

此处有更多信息:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html