我需要通过spark运行一些HQL。我有一个jar,它有一个从JSON创建数据集的类,执行HQL并创建JSON。最后,将JSON保存到本地文件系统中的文本文件中。
Spark正在本地模式下运行。
问题 :工作是顺序的,每项工作都是启动火花背景。因此,花更多的时间。
我想创建单个Spark Context并并行执行作业。
选项1:基于Queque的模型
我可以创建一个无限运行的作业,启动spark上下文并监听kafka队列。 JSON数据& HQL 作为kafka消息传递。
选项2:Spark Streaming
使用kafka的spark streaming来传播 JSON数据& HQL
或者还有其他方法可以达到这个目的吗?