处理大数据集(neo4j,mongo db,hadoop)

时间:2011-11-14 08:10:17

标签: mongodb hadoop neo4j

我正在寻找处理数据的最佳做法。所以,这就是我到目前为止:1.000.000个类型为“A”的节点。每个“A”节点可以连接到1-1000个“B”型节点和1-10个“C”型节点。

我编写了一个RESTful服务(Java,Jersey)来将数据导入到neo4j图中。在导入节点“A”(只有节点,带有ID,没有更多数据)后,我注意到neo4j db已经增长到~2.4GB。

在neo4j中存储其他字段(名称,描述......)是个好主意吗?或者我应该设置一个mongoDB / hadoop来使用键/值组合进行数据访问吗?

1 个答案:

答案 0 :(得分:2)

在插入过程中是否删除了大量节点?通常,一个节点在磁盘上占用9个字节,因此1M节点应该只占用9M字节。您必须启用id重用以积极回收内存。

您能否按文件大小列出数据目录的内容?

一般来说,如果neo4j中的其他字段不是大blob字段,则没有问题。

你是如何创建数据库的?