我在Jupyter笔记本中运行了本地Python脚本,该脚本在计算机上运行的本地Spark集群上运行作业:
sc = pyspark.SparkContext(appName="test")
sqlCtx = pyspark.SQLContext(sc)
如何将其更改为连接字符串,以在AWS的EMR Spark集群上运行作业?
这是可能的,还是在SSH进入远程集群时必须使用spark-submit
函数?
答案 0 :(得分:1)
您必须使用spark-submit
。我不认为您可以将本地脚本连接到EMR群集,因为您的主节点必须是本地节点。
以下是类似的帖子,可能会对您有所帮助:How to connect to Spark EMR from the locally running Spark Shell 但是,如果希望重复使用代码,则将Spark作业添加为EMR步骤只是提交代码的另一种方式。
如果您的目标是在EMR群集顶部使用Jupyter笔记本,请参阅此处。 https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/
答案 1 :(得分:0)
如果您想使用Jupyter笔记本并想在远程EMR群集上运行代码,则也可以使用EMR笔记本。
此处有更多信息:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html