Neo4j管理员导入缓慢,挂起一半

时间:2018-12-13 10:42:18

标签: neo4j

我正尝试使用neo4j-admin导入工具将大型CSV数据集(9亿个节点,30亿个属性,40亿个关系)导入Neo4j。我可以看到节点和关系导入(阶段1和2)都在不到一个小时的时间内非常快地完成了,但是关系链接阶段的速度降低了40%,而当我写这篇文章时,它已经完成了将近55%,而这个阶段花费了将近10小时即可达到55%。
通过检查堆转储,我看不到任何对象也占用了巨大空间。线程转储显示一些等待线程。

使用Neo4J社区版3.4.1

环境

  • 12个核心
  • 32GB RAM
  • nfs存储中的CSV
  • 导入前将HEAP_SIZE设置为20g

可用资源

  • 计算机总内存:31.26 GB
  • 可用计算机内存:30.00 GB
  • 最大堆内存:19.56 GB
  • 处理器:12
  • 配置的最大内存:10.54 GB
  • 高IO:是

从2018年12月12日23:19:23.740 + 0000开始导入

估计的节点数:896.16 M
估计的节点属性数:3.05 G
估计的关联数:3.97 G
关系属性的估计数量:15.18 G
估计的磁盘空间使用:430.98 GB
估计所需的内存使用量:12.01 GB

当前热门统计信息

%Cpu(s):2.3 us,1.8 sy,0.0 ni,27.6 id,68.2 wa,0.0 hi,0.0 si,0.0 st
KiB Mem:总计32780080,免费240616,已使用19537508,13001956 buff / cache
KiB交换:总计4194300,免费3052484,已使用1141816。 12778128可用Mem

PID用户PR NI VIRT RES SHR S%CPU%MEM TIME +命令
 1739 xxx 20 0 37.5g 18.2g 0 S 41.9 58.3 931:43.81 java

可用的线程转储here

可用的堆转储here

0 个答案:

没有答案