应用错误收集

GraphX可以用于存储，处理，查询和更新大型分布式图形吗？

时间：2014-08-06 13:58:13

标签： apache-spark

GraphX可以存储，处理，查询和更新大型分布式图形吗？

GraphX是否支持这些功能，或者数据必须从Graph数据库源中提取，随后将由GraphX处理？

我希望避免与网络通信和数据移动相关的费用。

2 个答案:

答案 0 :(得分：1)

实际上可以做到，尽管采取了非常复杂的措施。来自GraphFlow的MLnick在titan邮件组here上发布了他使用FaunusVertex和TitanCassandraInputFormat在Titan / Cassandra图上使用Spark 0.8，并且在groovy 1.8.9和更新的Kryo版本中存在问题。在他的GraphFlow presentation火花峰会中，他似乎已经使得Titan / HBase超过了Spark 0.7.x的作品。

或者如果你足够精明从Titan 0.5实现TitanInputFormat / TitanOutputFormat，也许你可以让我们保持在循环中。泰坦开发商表示，他们确实希望支持Spark，但没有时间/资源这样做。

使用Spark on Titan数据库几乎是我能想到的关于你的问题的唯一选择。

答案 1 :(得分：0)

除了通过HDFS之外，Spark还没有真正支持长期存储（技术上它不需要在HDFS上运行，但它与它高度集成）。因此，您可以将所有边和顶点存储在文件中，但这显然不是最有效的方法。另一种选择是使用像neo4j

这样的图形数据库