Question

我有一个测试用例，我需要将100和39个实体实例保存到数据库中。我目前正在使用的代码执行此操作，但最多需要40秒才能将所有数据保留在数据库中。数据从JSON文件中读取，大小约为15 MB。

现在我已经在自定义存储库中为另一个项目实现了批量插入方法。但是，在这种情况下，我有很多顶级实体要坚持，只有几个嵌套实体。

在我目前的情况下，我有5个Job个实体，其中包含大约约30个JobDetail实体的列表。一个JobDetail包含850到1100个JobEnvelope个实体。

写入数据库时，我使用默认的Job接口方法提交save(Iterable<Job> jobs)实体列表。所有嵌套实体都具有CascadeType PERSIST。每个实体都有自己的表格。

启用批量插入的常用方法是实现一个自定义方法，如saveBatch，每隔一段时间刷新一次。但在这种情况下我的问题是JobEnvelope个实体。我不会使用JobEnvelope存储库来保留它们，而是让Job实体的存储库处理它。我使用MariaDB作为数据库服务器。

所以我的问题归结为以下几点：如何让JobRepository批量插入它的嵌套实体？

这些是我的3个问题：

作业

@Entity
public class Job {
  @Id
  @GeneratedValue
  private int jobId;

  @OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "job")
  @JsonManagedReference
  private Collection<JobDetail> jobDetails;
}

的JobDetail

@Entity
public class JobDetail {
  @Id
  @GeneratedValue
  private int jobDetailId;

  @ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
  @JoinColumn(name = "jobId")
  @JsonBackReference
  private Job job;

  @OneToMany(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST, mappedBy = "jobDetail")
  @JsonManagedReference
  private List<JobEnvelope> jobEnvelopes;
}

JobEnvelope

@Entity
public class JobEnvelope {
  @Id
  @GeneratedValue
  private int jobEnvelopeId;

  @ManyToOne(fetch = FetchType.EAGER, cascade = CascadeType.PERSIST)
  @JoinColumn(name = "jobDetailId")
  private JobDetail jobDetail;

  private double weight;
}

Answer 1

确保正确配置与批处理相关的Hibernate属性：

<property name="hibernate.jdbc.batch_size">100</property>
<property name="hibernate.order_inserts">true</property>
<property name="hibernate.order_updates">true</property>

关键是如果连续语句操作同一个表，则可以对它们进行批处理。如果出现插入到另一个表的语句，则必须在该语句之前中断并执行先前的批处理构造。使用hibernate.order_inserts属性，您可以在构造批处理语句之前授予Hibernate重新排序插入的权限（hibernate.order_updates对更新语句具有相同的效果）。

jdbc.batch_size是Hibernate将使用的最大批量大小。尝试并分析不同的值，并选择一个在用例中显示最佳性能的值。

请注意，如果使用IDENTITY id生成器，则插入语句的批处理为disabled。

特定于MySQL，您必须指定rewriteBatchedStatements=true作为连接URL的一部分。要确保批处理按预期工作，请添加profileSQL=true以检查驱动程序发送到数据库的SQL。更多详情here。

如果您的实体已进行版本控制（出于乐观锁定目的），那么为了利用批量更新（不会影响插入），您还必须打开：

<property name="hibernate.jdbc.batch_versioned_data">true</property>

使用此属性，您告诉Hibernate JDBC驱动程序能够在执行批量更新时返回正确的受影响行数（执行版本检查所需）。您必须检查这是否适用于您的数据库/ jdbc驱动程序。例如，Oracle 11中的does not work和较旧的Oracle版本。

您可能还希望刷新并清除持久性上下文after each batch以释放内存，否则所有托管对象都将保留在持久性上下文中，直到它被关闭。

此外，您可能会发现this blog很有用，因为它很好地解释了Hibernate批处理机制的细节。

Spring Data JPA：嵌套实体的批量插入

作业

的JobDetail

JobEnvelope

1 个答案: