并行运行spark作业并使用在本地模式下运行的单个spark上下文

时间:2017-06-22 12:41:13

标签: apache-spark spark-streaming

我需要通过spark运行一些HQL。我有一个jar,它有一个从JSON创建数据集的类,执行HQL并创建JSON。最后,将JSON保存到本地文件系统中的文本文件中。

Spark正在本地模式下运行。

问题 :工作是顺序的,每项工作都是启动火花背景。因此,花更多的时间。

我想创建单个Spark Context并并行执行作业。

选项1:基于Queque的模型

我可以创建一个无限运行的作业,启动spark上下文并监听kafka队列。 JSON数据& HQL 作为kafka消息传递。

选项2:Spark Streaming

使用kafka的spark streaming来传播 JSON数据& HQL

或者还有其他方法可以达到这个目的吗?

0 个答案:

没有答案