在Web应用程序中使用Apache spark和HDinsight集群

时间:2015-06-15 17:28:50

标签: java hadoop apache-spark hdinsight

我目前正在尝试使用Apache spark创建一个大数据处理Web应用程序,我已成功安装在我的HDinsight群集上。我过去用C#连接到我的集群编写了Mapreduce程序,并且能够通过输入我的帐户名,存储密钥等来运行我连接到我的集群的应用程序...我已经浏览了网络并且它似乎用apache spark提交作业的唯一方法是使用RDP连接到您的集群,但是我无法将其合并到Web应用程序中(很容易。我是处理集群/大数据的新手)。是否可以以与运行mapreduce作业时类似的方式连接到我的集群?

我也在想,也许有可能在mapreduce中写这个,我已经在我的集群的上下文中了。这有可能以任何方式吗?

1 个答案:

答案 0 :(得分:0)

如果要通过脚本操作安装spark,则无法在群集外部打开Spark特定端口。您可以通过VNets使用Spark。如果在终点和群集之间设置VNET,则可以使用本机spark协议进行远程作业提交/查询。使用Oozie

也可以

您还可以使用新发布的预览Spark群集和C#作业提交进行调查。