我很新兴。我使用SPARK作业生成了一个大约420 MB的数据文件。我有一个Java应用程序,它只需要根据某些条件从该文件中同时查询数据并以json格式返回数据。 到目前为止,我已经为SPARK找到了两个RESTful API,但它们仅用于远程提交SPARK作业和管理SPARK上下文,
1)Livy
2)Spark job-server
如果可用,执行相同操作的其他选项有哪些(数据库除外)?
答案 0 :(得分:2)
您实际上可以使用Livy以RESTful方式将结果恢复为友好的JSON!
session_url = host + "/sessions/1"
statements_url = session_url + '/statements'
data = {
'code': textwrap.dedent("""\
val d = spark.sql("SELECT COUNT(DISTINCT food_item) FROM food_item_tbl")
val e = d.collect
%json e
""")}
r = requests.post(statements_url, data=json.dumps(data), headers=headers)
print r.json()