我是否需要为每个用例构建单独的火花罐?

时间:2018-09-05 13:10:32

标签: apache-spark

我的问题是我有多个用例需要解决。例如-假设我在json文件中具有国家/地区数据的所有状态。

[{
    "name": "Karnatka",
    "capital": "Bengaluru",
    "CM": "Swamy",
    "population": 10000000
},
{
    "name": "Tamilnadu",
    "capital": "Chenaai",
    "CM": "XYZ",
    "population": 200000
},
{
    "name": "Kerala",
    "capital": "Trichi",
    "CM": "ABCD",
    "population": 3000000
}]

现在说我有以下用例-

  • 找出顶部填充状态并写入hdfs
  • 找出每个州的资本写入一些自定义UI
  • 找出每个州的首席部长并写信给hdfs

所以我需要为每个用例构建单独的jar还是可以在单个spark应用程序中做到这一点。 以及如何安排此应用程序在群集中每天运行?

1 个答案:

答案 0 :(得分:0)

如果我正确理解了您的问题,那么您正在寻找SparkJobServer(https://github.com/spark-jobserver/spark-jobserver)。使用SparkJobServer,您可以通过REST接口动态提交Spark作业并获取结果。