背景
想要实现:
我们做了什么:
然后通过两种方式提交:
“spark-submit --class main.scala.Test --master yarn /path.jar”
在本地模式下直接在IDEA中运行scala代码(如果更改为Yarn,将抛出异常)。
程序执行完成后,我们会获得processed_data并存储它。
所有用户都不是以交互方式提交的。非常愚蠢!
因此,如果我是用户,我想在群集上查询或处理数据,并方便地在前端获得反馈 我该怎么办? 哪些工具或库可以使用?
谢谢!
答案 0 :(得分:0)
所以通常你有两种方法:
第一种方法 - spark app是一种Web服务,这不是一种好方法,因为只要您的Web服务正在运行,您也将使用群集上的资源(除非您运行spark在具有特定配置的mesos上) - 阅读有关集群管理器here的更多信息。
第二种方法 - 服务和火花应用程序分离更好。在此方法中,您可以从Web服务创建一个或多个Spark应用程序launched by calling spark submit
。还有两个选项 - 创建单个spark应用程序,将使用参数调用,指定要执行的操作,或为一个查询创建一个spark应用程序。此方法中的查询结果可以保存到文件中,也可以通过网络或任何其他inter process communication方法发送到Web服务器。
答案 1 :(得分:0)
以下是提交点火作业的多种方法:
**第三种解决方案是我自己在网络爬虫中运行不同类型算法的经验。 **