将Cassandra数据加载到Titan / Neo4J

时间:2015-10-02 17:38:26

标签: python graph neo4j cassandra titan

我在Cassandra表中有维基百科数据(一行=一篇wiki文章)。现在我想将其插入到图形数据库中,以便我可以看到它们之间的关系。我到目前为止尝试的是逐个从Cassandra获取记录并将它们添加为Neo4J中的节点,但这非常慢。有没有办法使用Neo4J / Titan,可以从Cassandra自动获取数据并构建图表?

2 个答案:

答案 0 :(得分:2)

Titan提供批量加载功能,建议用于加载大量数据:

http://s3.thinkaurelius.com/docs/titan/1.0.0/bulk-loading.html

这是一个较旧的链接,也可能有所帮助,虽然有些材料已注明日期:

http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/

必须有某种“程序”将维基百科数据转换为属性图的节点和边缘。也许这就是“自动”的意思 - 询问这样的进口商程序是否存在开箱即用。

我不知道Titan维基百科数据的预先存在的程序,虽然我确信在某处有代码。此链接可能有助于Neo4J:

https://github.com/mirkonasato/graphipedia

答案 1 :(得分:1)

的Neo4j

TL; DR; - 您的案例没有现成的工具,但import-tool存在

因此,您希望将数据迁移到Neo4j。最快的方法是使用import tool

安排:

  • 将您的数据从Cassandra转储到CSV files
  • Download neo4j并在某处提取
  • 使用neo4j-import工具(bin/目录),指向您的CSV文件并import them

导入工具非常快,可以处理千兆字节的数据。