从代码

时间:2016-08-06 22:39:13

标签: scala apache-spark

在企业应用程序(Java或Scala)中按需启动Spark作业的推荐方法是什么?有一个处理步骤,目前需要几分钟才能完成。我想使用一个Spark集群来减少处理时间,让我们说不到15秒:

  1. 重写Spark和Scala中耗时的过程。
  2. 参数将作为命令行参数传递给JAR。然后,Spark作业从数据库中获取源数据。进行处理并将输出保存在企业应用程序可读的位置。
  3. 问题1 :如何从企业应用程序内按需启动Spark作业? Spark群集(独立)位于同一LAN上,但与运行企业应用程序的服务器分开。

    问题2 :将处理结果传回给来电者代码的推荐方法是什么?

    问题3 :如何通知调用者代码有关作业完成(或Spark集群故障,作业超时,火花代码异常等故障)

1 个答案:

答案 0 :(得分:1)

您可以尝试spark-jobserver。将spark.jar上传到服务器。从您的应用程序中,您可以使用rest接口调用spark.jar中的作业。要知道您的工作是否完成,您可以继续轮询其余界面。当你的工作完成并且结果非常小时,你可以从其余的界面本身获得它。但如果结果很大,最好保存到某个数据库。