Question

我在Jupyter笔记本中运行了本地Python脚本，该脚本在计算机上运行的本地Spark集群上运行作业：

sc = pyspark.SparkContext(appName="test")
sqlCtx = pyspark.SQLContext(sc)

如何将其更改为连接字符串，以在AWS的EMR Spark集群上运行作业？

这是可能的，还是在SSH进入远程集群时必须使用spark-submit函数？

Answer 1

您必须使用spark-submit。我不认为您可以将本地脚本连接到EMR群集，因为您的主节点必须是本地节点。

以下是类似的帖子，可能会对您有所帮助：How to connect to Spark EMR from the locally running Spark Shell 但是，如果希望重复使用代码，则将Spark作业添加为EMR步骤只是提交代码的另一种方式。

Answer 2

如果您想使用Jupyter笔记本并想在远程EMR群集上运行代码，则也可以使用EMR笔记本。