休息接口到HDInsight Spark提交作业并读取结果

时间:2016-04-14 15:37:55

标签: azure hadoop apache-spark-sql hdinsight

我在Azure上的HDInsight中设置了一个Spark集群,我有一个服务thaqt定期将数据推送到HDInsight blob存储,我已经创建了一个Hive External表。我能够使用Jupyter并执行一些Spark SQL查询并查看结果。

现在我有一个 ASP.Net网站,需要根据用户请求执行类似的Spark SQL查询作业,并在网页上显示结果。

是否有任何图书馆可以证实这一点,或者有人可以分享一些如何实现这一目标的样本?

我看到HDInsight spark群集集群附带 Livy ,但我看不到任何示例告诉我们如何在我的dotnet环境中使用它。顺便说一下,我假设这是解决我的问题需要采取的路线。

我对这一切都很陌生,任何指针都会有所帮助。

谢谢,Kiran

1 个答案:

答案 0 :(得分:0)

很抱歉,我们目前没有HDInsight Spark SDK。您始终可以按照此处所述向API发送REST调用:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-apache-spark-livy-rest-interface/

但是,如果您想从Livy API获得结果,则需要做一些变通方法来使其工作。原因是我们在HDInsight中以群集模式在YARN上使用Spark,其结果不会写回Livy API。您需要查看Spark驱动程序的容器日志并手动获取stdout / stderr。

如果您有更多问题,可以发送电子邮件到xiaoyzhu的microsoft dot com,我可以帮助路由到合适的所有者。

来自Microsoft HDInsight的朱晓勇