从WARC文件导入数据(WebArchive)

时间:2017-07-03 04:27:08

标签: java import neo4j

我正在处理一个不太正常的用例,其中数据存在于WARC文件中。 [https://en.wikipedia.org/wiki/Web_ARChive][1] 我想将数据导入Neo4j。

我能想到的一个解决方案是解析WARC文件(一些要读取的java代码),然后将结构化数据写入CSV,以便可以使用一些导入工具加载它。

提取到CSV是将数据加载到Neo4j的唯一选项吗?

你能否就如何实施这个用例给我一些建议?


谢谢,   
Phaneendra

1 个答案:

答案 0 :(得分:0)

取决于。

这取决于您要从Web存档加载哪些数据。如果您正在谈论加载元数据......那么您不需要中间步骤,处理文件并将数据直接插入数据库。您可以使用存储过程(apoc库中包含类似的东西)或使用您喜欢的语言+驱动程序的小型服务器应用程序。

如果您正在谈论网络存档中的内容,那就是另一回事。 Neo4j不是blob /文档存储,因此您必须提取和解释存档文件。在间接过程中,这可能会更有效。

希望这有帮助, 汤姆

BTW csv不是唯一可以加载的格式。有加载xml,json,...的程序。