在Neo4J中使用大型数据集

时间:2016-07-01 14:28:03

标签: java neo4j garbage-collection cypher heap

我最近一直在测试Neo4J对大型数据集的功能,并开始遇到问题。

首先,即使最小的数据集,摄取时间(csv-> neo4j)和查询时间也都过多。例如,1GB数据集转换大约需要50分钟,简单 - [:RELATION * 1..2] - 查询需要几分钟;这是在拥有160个核心和4TB内存的服务器上运行的。

从最初的分析来看,这似乎是某种垃圾收集问题,但不同的堆指标(年轻一代等)似乎只影响这个摄取时间+/- 10分钟(合理减少,但仍然看似很高) 。有没有其他人遇到类似情况/有解决方案,或者这是一个已知问题?

其次,数据集在CSV格式中从1.2GB到10GB不等,但在neo4j中,数据集的大小约为7(1.2GB变为7.6GB)。这是预期的,还是看起来相当过分

此外,我正在运行Ubuntu 14.04和neo4j 2.3版

感谢您的协助!

0 个答案:

没有答案