通过RESTful API

时间:2017-10-11 12:46:57

标签: scala rest apache-spark apache-spark-sql spark-streaming

我很新兴。我使用SPARK作业生成了一个大约420 MB的数据文件。我有一个Java应用程序,它只需要根据某些条件从该文件中同时查询数据并以json格式返回数据。 到目前为止,我已经为SPARK找到了两个RESTful API,但它们仅用于远程提交SPARK作业和管理SPARK上下文,

1)Livy
2)Spark job-server

如果可用,执行相同操作的其他选项有哪些(数据库除外)?

1 个答案:

答案 0 :(得分:2)

您实际上可以使用Livy以RESTful方式将结果恢复为友好的JSON!

session_url = host + "/sessions/1"
statements_url = session_url + '/statements'
data = {
        'code': textwrap.dedent("""\
        val d = spark.sql("SELECT COUNT(DISTINCT food_item) FROM food_item_tbl")
        val e = d.collect
        %json e
        """)}
r = requests.post(statements_url, data=json.dumps(data), headers=headers)
print r.json()

我的参考答案:Apache Livy: query Spark SQL via REST: possible?

相关:Livy Server: return a dataframe as JSON?