Question

我很新兴。我使用SPARK作业生成了一个大约420 MB的数据文件。我有一个Java应用程序，它只需要根据某些条件从该文件中同时查询数据并以json格式返回数据。到目前为止，我已经为SPARK找到了两个RESTful API，但它们仅用于远程提交SPARK作业和管理SPARK上下文，

1)Livy
2)Spark job-server

如果可用，执行相同操作的其他选项有哪些（数据库除外）？

Answer 1

您实际上可以使用Livy以RESTful方式将结果恢复为友好的JSON！

session_url = host + "/sessions/1"
statements_url = session_url + '/statements'
data = {
        'code': textwrap.dedent("""\
        val d = spark.sql("SELECT COUNT(DISTINCT food_item) FROM food_item_tbl")
        val e = d.collect
        %json e
        """)}
r = requests.post(statements_url, data=json.dumps(data), headers=headers)
print r.json()

我的参考答案：Apache Livy: query Spark SQL via REST: possible?

相关：Livy Server: return a dataframe as JSON?

通过RESTful API

1 个答案: