Question

我的问题是我有多个用例需要解决。例如-假设我在json文件中具有国家/地区数据的所有状态。

[{
    "name": "Karnatka",
    "capital": "Bengaluru",
    "CM": "Swamy",
    "population": 10000000
},
{
    "name": "Tamilnadu",
    "capital": "Chenaai",
    "CM": "XYZ",
    "population": 200000
},
{
    "name": "Kerala",
    "capital": "Trichi",
    "CM": "ABCD",
    "population": 3000000
}]

现在说我有以下用例-

找出顶部填充状态并写入hdfs
找出每个州的资本写入一些自定义UI
找出每个州的首席部长并写信给hdfs

所以我需要为每个用例构建单独的jar还是可以在单个spark应用程序中做到这一点。以及如何安排此应用程序在群集中每天运行？

Answer 1

如果我正确理解了您的问题，那么您正在寻找SparkJobServer（https://github.com/spark-jobserver/spark-jobserver）。使用SparkJobServer，您可以通过REST接口动态提交Spark作业并获取结果。

我是否需要为每个用例构建单独的火花罐？

1 个答案: