我不明白使用Rscript和spark-submit运行R文件之间的区别。
在文件中我传递选项以连接到群集,因此我不知道使用spark-submit的冒险行为是什么。
sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))
创建spark会话后,我在R程序中执行的操作是使用SQL查询存储在HDFS中的镶木地板文件。
我尝试了两种方式来运行我的程序,他们完全按照我想的那样做。
提前致谢
答案 0 :(得分:1)
使用spark-submit
允许您设置许多Spark特定选项,包括但不限于主URI,部署模式,内存,内核,配置选项,jar,包等。
其中大多数可以使用Spark配置设置或在脚本中进行硬编码,但{{1}}提供了更大的灵活性。
这同样适用于其他受支持的语言(Java,Python,Scala)。