GraphX - 存储和计算超过30亿个顶点的最佳方式

时间:2015-02-05 06:21:29

标签: hbase apache-spark spark-graphx

我是Spark和GraphX的新手。到目前为止,我一直在使用Titan DB(HBase存储)和Giraph进行处理。  我要求有一个大约30亿个顶点和大约50亿个边缘的图形。存储图形的最佳方法是什么(通过添加顶点和边缘从头开始创建图形,我还想远离用于图形创建的titan API)。我无法找到任何关于此的直接文档。你能否告诉我使用GraphX和商品硬件创建/存储我的图表和流程的最佳方法是什么?

感谢。

1 个答案:

答案 0 :(得分:2)

只要你能将HBase表读入RDD(你可以),就没有问题。查看HBaseTest示例(它在Spark发行版中)可能会对您有所帮助。