Question

我在10000个批次中创建了100万个Neo4j节点，每个节点都在自己的事务中。奇怪的是，使用多线程执行并行化此过程对性能没有任何积极影响。就好像不同线程中的事务相互阻塞一样。

这是一段Scala代码，可以在并行集合的帮助下对此进行测试：

import org.neo4j.kernel.EmbeddedGraphDatabase

object Main extends App {

    val total = 1000000
    val batchSize = 10000

    val db = new EmbeddedGraphDatabase("neo4yay")

    Runtime.getRuntime().addShutdownHook(
        new Thread(){override def run() = db.shutdown()}
    )

    (1 to total).grouped(batchSize).toSeq.par.foreach(batch => {

        println("thread %s, nodes from %d to %d"
            .format(Thread.currentThread().getId, batch.head, batch.last))

        val transaction = db.beginTx()
        try{
            batch.foreach(db.createNode().setProperty("Number", _))
        }finally{
            transaction.finish()
        }
    })
}

以下是构建和运行它所需的build.sbt行：

scalaVersion := "2.9.2"

libraryDependencies += "org.neo4j" % "neo4j-kernel" % "1.8.M07"

fork in run := true

通过在外部.par之前删除并添加foreach调用，可以在并行和顺序模式之间切换。控制台输出清楚地显示，.par执行确实是多线程的。

为了排除此代码中可能存在的并发问题，我还尝试了基于actor的实现，结果大致相同（分别为顺序和并行版本分别为6秒和7秒）。

所以，问题是：我做错了什么或者这是Neo4j的限制吗？谢谢！

Answer 1

主要问题是你的tx大约在同一时间到达。事务提交是对事务日志的序列化写入。如果写入将按时间交错并且实际节点创建是一个更昂贵的过程，那么您将获得加速。

Answer 2

批量插入不适用于多个线程。来自neo4j文档：

始终在单个线程中执行批量插入（或使用同步一次只能使一个线程访问批量插入器）并在完成时调用shutdown。

Neo4j Batch insert

在Neo4j中创建多线程节点

2 个答案: