连接到TitanDB SparkGraphComputer的远程Spark Cluster

时间:2016-06-27 23:56:54

标签: apache-spark titan gremlin

我正在尝试利用Hadoop Spark Cluster,使用SparkGraphComputer和BulkLoaderVertex程序按照指定here将图表批量加载到Titan中。这需要在属性文件中设置spark配置,告诉Titan Spark所在的位置,从哪里读取图形输入,在哪里存储其输出等。

问题是所有示例似乎都通过选项指定了本地火花群:

spark.master=local[*]
但是,我希望在远程Spark集群上运行此作业,该集群与托管titan实例的VM位于同一VNet上。根据我的阅读,似乎可以通过设置

来实现
spark.master=<spark_master_IP>:7077

这给了我一个错误,即所有Spark主人都没有响应,这使我无法将作业发送到spark群集以分发批量加载计算。

作为参考,我使用Titan 1.0.0和Spark 1.6.4集群,它们都托管在同一个VNet上。 Spark正在由纱线管理,这也可能导致这种困难。

任何形式的帮助/参考将不胜感激。我确信我拥有正确的火花高手IP,并且我使用正确的gremlin命令通过SparkGraphComputer完成批量加载。我不确定的是如何正确配置Hadoop属性文件,以使Titan通过VNet与远程Spark集群通信。

0 个答案:

没有答案