GraphX可以用于存储,处理,查询和更新大型分布式图形吗?

时间:2014-08-06 13:58:13

标签: apache-spark

GraphX可以存储,处理,查询和更新大型分布式图形吗?

GraphX是否支持这些功能,或者数据必须从Graph数据库源中提取,随后将由GraphX处理?

我希望避免与网络通信和数据移动相关的费用。

2 个答案:

答案 0 :(得分:1)

实际上可以做到,尽管采取了非常复杂的措施。来自GraphFlow的MLnick在titan邮件组here上发布了他使用FaunusVertex和TitanCassandraInputFormat在Titan / Cassandra图上使用Spark 0.8,并且在groovy 1.8.9和更新的Kryo版本中存在问题。 在他的GraphFlow presentation火花峰会中,他似乎已经使得Titan / HBase超过了Spark 0.7.x的作品。

或者如果你足够精明从Titan 0.5实现TitanInputFormat / TitanOutputFormat,也许你可以让我们保持在循环中。泰坦开发商表示,他们确实希望支持Spark,但没有时间/资源这样做。

使用Spark on Titan数据库几乎是我能想到的关于你的问题的唯一选择。

答案 1 :(得分:0)

除了通过HDFS之外,Spark还没有真正支持长期存储(技术上它不需要在HDFS上运行,但它与它高度集成)。因此,您可以将所有边和顶点存储在文件中,但这显然不是最有效的方法。另一种选择是使用像neo4j

这样的图形数据库