Question

我不明白使用Rscript和spark-submit运行R文件之间的区别。

在文件中我传递选项以连接到群集，因此我不知道使用spark-submit的冒险行为是什么。

sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))

创建spark会话后，我在R程序中执行的操作是使用SQL查询存储在HDFS中的镶木地板文件。

我尝试了两种方式来运行我的程序，他们完全按照我想的那样做。

提前致谢

Answer 1

将SparkR程序称为R脚本只是将其评估为普通R程序。它适用于简单的情况，但它是有限的。
使用spark-submit允许您设置许多Spark特定选项，包括但不限于主URI，部署模式，内存，内核，配置选项，jar，包等。

其中大多数可以使用Spark配置设置或在脚本中进行硬编码，但{{1}}提供了更大的灵活性。

这同样适用于其他受支持的语言（Java，Python，Scala）。

使用Rscript vs spark-submit运行R脚本

1 个答案: