我需要从数据库中导出大量数据。这是代表我的数据的类:
public class Product{
...
@OneToMany
@JoinColumn(name = "product_id")
@Cascade({SAVE_UPDATE, DELETE_ORPHAN})
List<ProductHtmlSource> htmlSources = new ArrayList<ProductHtmlSource>();
... }
ProductHtmlSource
- 包含我实际需要导出的大字符串。
由于导出数据的大小比JVM内存大,我正在按块读取数据。像这样:
final int batchSize = 1000;
for (int i = 0; i < 50; i++) {
ScrollableResults iterator = getProductIterator(batchSize * i, batchSize * (i + 1));
while (iterator.getScrollableResults().next()) {
Product product = (Product) iterator.getScrollableResults().get(0);
List<String> htmls = product.getHtmlSources();
<some processing>
}
}
getProductIterator
代码:
public ScrollableResults getProductIterator(int offset, int limit) {
Session session = getSession(true);
session.setCacheMode(CacheMode.IGNORE);
ScrollableResults iterator = session
.createCriteria(Product.class)
.add(Restrictions.eq("status", Product.Status.DONE))
.setFirstResult(offset)
.setMaxResults(limit)
.scroll(ScrollMode.FORWARD_ONLY);
session.flush();
session.clear();
return iterator;
}
问题在于,尽管我在读取每个数据后清除会话,但是Product
个对象在某处累积,我得到OutOfMemory异常。问题不在于处理代码块,即使没有它我也会遇到内存错误。批量的大小也不是问题,因为1000个对象很容易进入内存。
Profiler显示对象在org.hibernate.engine.StatefulPersistenceContext
类中累积。
stacktrace:
Caused by: java.lang.OutOfMemoryError: Java heap space
at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:99)
at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:518)
at java.lang.StringBuffer.append(StringBuffer.java:307)
at org.hibernate.type.TextType.get(TextType.java:41)
at org.hibernate.type.NullableType.nullSafeGet(NullableType.java:163)
at org.hibernate.type.NullableType.nullSafeGet(NullableType.java:154)
at org.hibernate.type.AbstractType.hydrate(AbstractType.java:81)
at org.hibernate.persister.entity.AbstractEntityPersister.hydrate(AbstractEntityPersister.java:2101)
at org.hibernate.loader.Loader.loadFromResultSet(Loader.java:1380)
at org.hibernate.loader.Loader.instanceNotYetLoaded(Loader.java:1308)
at org.hibernate.loader.Loader.getRow(Loader.java:1206)
at org.hibernate.loader.Loader.getRowFromResultSet(Loader.java:580)
at org.hibernate.loader.Loader.doQuery(Loader.java:701)
at org.hibernate.loader.Loader.doQueryAndInitializeNonLazyCollections(Loader.java:236)
at org.hibernate.loader.Loader.loadCollection(Loader.java:1994)
at org.hibernate.loader.collection.CollectionLoader.initialize(CollectionLoader.java:36)
at org.hibernate.persister.collection.AbstractCollectionPersister.initialize(AbstractCollectionPersister.java:565)
at org.hibernate.event.def.DefaultInitializeCollectionEventListener.onInitializeCollection(DefaultInitializeCollectionEventListener.java:63)
at org.hibernate.impl.SessionImpl.initializeCollection(SessionImpl.java:1716)
at org.hibernate.collection.AbstractPersistentCollection.initialize(AbstractPersistentCollection.java:344)
at org.hibernate.collection.AbstractPersistentCollection.read(AbstractPersistentCollection.java:86)
at org.hibernate.collection.AbstractPersistentCollection.readSize(AbstractPersistentCollection.java:109)
at org.hibernate.collection.PersistentBag.size(PersistentBag.java:225)
**at com.rivalwatch.plum.model.Product.getHtmlSource(Product.java:76)
at com.rivalwatch.plum.model.Product.getHtmlSourceText(Product.java:80)
at com.rivalwatch.plum.readers.AbstractDataReader.getData(AbstractDataReader.java:64)**
答案 0 :(得分:4)
看起来您正在使用起始行和结束行号调用getProductIterator(),而getProductIterator()期望起始行和行计数。随着您的“上限”越来越高,您正在以更大的块读取数据。我认为你的意思是将batchSize作为第二个参数传递给getProductIterator()。
答案 1 :(得分:2)
不是直接的答案,但对于这种数据操作,我会使用the StatelessSession interface。
答案 2 :(得分:2)
KeithL是对的 - 你正在通过一个不断增加的限制。但无论如何,以这种方式分解它并没有意义。滚动光标的整个要点是您一次处理一行,因此无需将其分解为块。获取大小减少了到数据库的次数,但代价是占用更多内存。一般模式应该是:
Query q = session.createCriteria(... no offset or limit ...);
q.setCacheMode(CacheMode.IGNORE); // prevent query or second level caching
q.setFetchSize(1000); // experiment with this to optimize performance vs. memory
ScrollableResults iterator = query.scroll(ScrollMode.FORWARD_ONLY);
while (iterator.next()) {
Product p = (Product)iterator.get();
...
session.evict(p); // required to keep objects from accumulating in the session
}
那就是说,错误是getHtmlSources所以问题可能与会话/光标/滚动问题完全无关。如果这些html字符串很大并且它们在整个时间都被引用,那么你可能只是在连续的内存中耗尽。
顺便说一句,我没有在ScrollableResults上看到getScrollableResults方法。
答案 3 :(得分:1)
冒着出现愚蠢的风险 - 你有没有考虑过这样做?
就个人而言,我会避免进行“远离”数据库的批处理。我不知道你正在使用什么数据库,但通常有一种机制可以有效地将数据集从数据库中拉出来。进入文件,即使它在出路上涉及适度简单的操作。存储过程,特定的导出实用程序。调查数据库供应商提供的其他内容。
答案 4 :(得分:0)
你可以发布Exception堆栈跟踪吗? 它可以通过为GC传递合适的JVM选项来解决。
我认为这是相关的 - Java StringBuilder huge overhead。
从StackTrace中查看正在创建一个非常大的String并导致异常。