要运行Scala Spark作业和运行Spark Shell查询...我一直在SSH进入EMR的主节点,现在负责管理云的团队不允许我通过SSH进入EMR主节点。可以利用哪些替代模式?
答案 0 :(得分:0)
如果云团队乐于允许访问Zeppelin,则它是您最好的选择。
%spark
解释器几乎spark-shell
运行在笔记本的段落中。
默认情况下,它还会导入重要的内容,例如spark.sql
,SparkContext
等,因此您无需导入任何内容,只需运行以下代码即可:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
({spark-shell
也可以做到这一点,但我使用它的程度不足以了解其他方面)
由于Zeppelin实际上在Spark Master节点上运行,因此您甚至可以使用Shell解释器%sh
访问主节点的操作系统,例如:
%sh
ls /
aws s3 cp s3://mybucket/myfile /
尽管您的访问权限当然取决于os权限。
请注意,一旦杀死群集,笔记本也将消失!确保尽可能下载它。