在企业应用程序(Java或Scala)中按需启动Spark作业的推荐方法是什么?有一个处理步骤,目前需要几分钟才能完成。我想使用一个Spark集群来减少处理时间,让我们说不到15秒:
问题1 :如何从企业应用程序内按需启动Spark作业? Spark群集(独立)位于同一LAN上,但与运行企业应用程序的服务器分开。
问题2 :将处理结果传回给来电者代码的推荐方法是什么?
问题3 :如何通知调用者代码有关作业完成(或Spark集群故障,作业超时,火花代码异常等故障)
答案 0 :(得分:1)
您可以尝试spark-jobserver。将spark.jar上传到服务器。从您的应用程序中,您可以使用rest接口调用spark.jar中的作业。要知道您的工作是否完成,您可以继续轮询其余界面。当你的工作完成并且结果非常小时,你可以从其余的界面本身获得它。但如果结果很大,最好保存到某个数据库。