禁止使用EMR主SSH

时间:2018-09-06 19:02:30

标签: apache-spark ssh amazon-emr

要运行Scala Spark作业和运行Spark Shell查询...我一直在SSH进入EMR的主节点,现在负责管理云的团队不允许我通过SSH进入EMR主节点。可以利用哪些替代模式?

1 个答案:

答案 0 :(得分:0)

如果云团队乐于允许访问Zeppelin,则它是您最好的选择。

%spark解释器几乎spark-shell运行在笔记本的段落中。

默认情况下,它还会导入重要的内容,例如spark.sqlSparkContext等,因此您无需导入任何内容,只需运行以下代码即可:

%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()

val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()

({spark-shell也可以做到这一点,但我使用它的程度不足以了解其他方面)

由于Zeppelin实际上在Spark Master节点上运行,因此您甚至可以使用Shell解释器%sh访问主节点的操作系统,例如:

%sh
ls /
aws s3 cp s3://mybucket/myfile /

尽管您的访问权限当然取决于os权限。

请注意,一旦杀死群集,笔记本也将消失!确保尽可能下载它。