使用Rscript vs spark-submit运行R脚本

时间:2017-12-10 23:52:10

标签: r apache-spark sparkr

我不明白使用Rscript和spark-submit运行R文件之间的区别。

在文件中我传递选项以连接到群集,因此我不知道使用spark-submit的冒险行为是什么。

sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))

创建spark会话后,我在R程序中执行的操作是使用SQL查询存储在HDFS中的镶木地板文件。

我尝试了两种方式来运行我的程序,他们完全按照我想的那样做。

提前致谢

1 个答案:

答案 0 :(得分:1)

  • 将SparkR程序称为R脚本只是将其评估为普通R程序。它适用于简单的情况,但它是有限的。
  • 使用spark-submit允许您设置许多Spark特定选项,包括但不限于主URI,部署模式,内存,内核,配置选项,jar,包等。

    其中大多数可以使用Spark配置设置或在脚本中进行硬编码,但{{1}}提供了更大的灵活性。

这同样适用于其他受支持的语言(Java,Python,Scala)。