应用错误收集

我需要通过spark运行一些HQL。我有一个jar，它有一个从JSON创建数据集的类，执行HQL并创建JSON。最后，将JSON保存到本地文件系统中的文本文件中。

Spark正在本地模式下运行。

问题：工作是顺序的，每项工作都是启动火花背景。因此，花更多的时间。

我想创建单个Spark Context并并行执行作业。

选项1：基于Queque的模型

我可以创建一个无限运行的作业，启动spark上下文并监听kafka队列。 JSON数据＆amp; HQL 作为kafka消息传递。

选项2：Spark Streaming

使用kafka的spark streaming来传播 JSON数据＆amp; HQL

或者还有其他方法可以达到这个目的吗？