我正尝试使用neo4j-admin导入工具将大型CSV数据集(9亿个节点,30亿个属性,40亿个关系)导入Neo4j。我可以看到节点和关系导入(阶段1和2)都在不到一个小时的时间内非常快地完成了,但是关系链接阶段的速度降低了40%,而当我写这篇文章时,它已经完成了将近55%,而这个阶段花费了将近10小时即可达到55%。
通过检查堆转储,我看不到任何对象也占用了巨大空间。线程转储显示一些等待线程。
使用Neo4J社区版3.4.1
环境
可用资源:
从2018年12月12日23:19:23.740 + 0000开始导入
估计的节点数:896.16 M
估计的节点属性数:3.05 G
估计的关联数:3.97 G
关系属性的估计数量:15.18 G
估计的磁盘空间使用:430.98 GB
估计所需的内存使用量:12.01 GB
当前热门统计信息
%Cpu(s):2.3 us,1.8 sy,0.0 ni,27.6 id,68.2 wa,0.0 hi,0.0 si,0.0 st
KiB Mem:总计32780080,免费240616,已使用19537508,13001956 buff / cache
KiB交换:总计4194300,免费3052484,已使用1141816。 12778128可用Mem
PID用户PR NI VIRT RES SHR S%CPU%MEM TIME +命令
1739 xxx 20 0 37.5g 18.2g 0 S 41.9 58.3 931:43.81 java
可用的线程转储here
可用的堆转储here