在Spark

时间:2016-05-03 17:36:26

标签: scala apache-spark pyspark

我们计划在Scala上使用Spark进行计算。只想知道在Scala中执行Spark的最佳方式是什么; Scala as Script(或)Scala as Application。这两种方法之间是否存在优势 / 劣势

如上所述here,可以执行Scala as Script。我正在尝试使用sbt跳过编译过程,以便我可以使用Scala作为脚本,就像我们将使用Python

一样

1 个答案:

答案 0 :(得分:2)

我认为你的意思是scala作为脚本,scala REPL带有spark(spark-shell),而scala应用程序是由sbtmaven打包的standlaone应用程序。

  • 使用scala shell(spark-shell)来测试你的algoriothm / implementation。所以它应该用作分期阶段。
  • 当你测试了你的实现时,你应该把它放在一个独立的应用程序中,打包并发送一个可以通过spark-submit提交的“胖罐子”

希望这很清楚