我有一组平面文件形式的日志数据,我希望从中形成图形(基于日志中的信息)并将其加载到Titan数据库中。这个数据的大小是几千兆字节。我正在探索批量加载选项Faunus和BatchGraph(我在https://github.com/thinkaurelius/titan/wiki/Bulk-Loading中读到)。选项卡分隔的日志数据我需要对文件的每一行进行一些处理,以形成我想到的图形节点和边缘。 Faunus / BatchGraph会服务于这个用例吗?如果是,我的输入文件应采用什么格式才能使这些工具正常工作?如果没有,是否正在使用BluePrints API?由于我是新手,因此非常感谢您可以在建议中分享的任何资源。谢谢!
答案 0 :(得分:6)
要以简单的方式回答您的问题,我认为您需要使用Faunus来加载数据。如果可能的话,我建议先使用外部工具清理和转换数据。制表符分隔是一种很好的格式,但是如何准备这些文件会对加载性能产生影响(例如,有时只是以正确的方式对数据进行排序可以大大提高速度。)
更完整的答案在于这两个资源。他们应该帮助你决定一种方法:
http://thinkaurelius.com/2014/05/29/powers-of-ten-part-i/ http://thinkaurelius.com/2014/06/02/powers-of-ten-part-ii/
我会提供这个额外的建议 - 如果你真的是一个新手,我建议你找到一些产生一些介于100K和1M边缘之间的数据。专注于使用BatchGraph
或仅使用Blueprints API加载,如第一部分博客文章中所述。通过查询这个小案例中的数据,习惯了Gremlin。使用这段时间来开发验证已加载内容的方法。一旦您对所有这些感到满意,那么就可以将其扩展到最大尺寸。