将图形数据从边缘输入格式转换为顶点输入格式

时间:2017-01-02 15:12:52

标签: java hadoop graph giraph bigdata

我正在试验Giraph。要在Giraph中运行算法,我需要图形数据采用顶点输入格式。几乎所有可用的在线大数据都采用边缘列表格式。我用Java编写了一个代码,将此Edge List格式转换为VertexInputFormat。这适用于边缘近800k的较小图形。但是对于我需要的图表,每次运行程序时,它都会给我堆空间超出错误。我尝试将堆大小增加到最大值。仍然存在错误。

我运行的文件大小约为15GB。

我不太了解算法(PageRank,SingleSourceShortestPath等...)是如何在Giraph中编写的,但我知道它们都将VertexInputFormat中的图形作为输入。

我正在寻找的帮助是:

  1. 将EdgeInputFormat转换为VertexInputFormat(或)
  2. 的优化代码
  3. 任何有助于此次转化的在线工具(或)
  4. 将EdgeInputFormat作为输入的PageRank算法。

1 个答案:

答案 0 :(得分:0)

抱歉,我没有明白为什么你只想使用VertexInputFormat,Giraph也提供了EdgeInputFormat API,为什么你不能使用它?