在std :: vector中存储BSONObj对象与大文档

时间:2016-05-03 08:11:46

标签: c++ mongodb stdvector

我有以下代码片段,它从查询游标中累积BSON文档,然后进行处理:

// Accumulate
std::vector<BSONObj> results;
while (cursor->more()) {
  BSONObj r = cursor->nextSafe();
  results.push_back(r);
}
...
// Process it (example)
for (unsigned int ix = 0; ix < results.size(); ix++) {
  BSONElement be = results[ix].getField("_id");
  // Do somtething with 'be'
  ...
}

此代码从一个时间(几个月)开始运行良好但我们最近发现,对于DB中的大型文档(大约1.1MB),results[ix].getField("_id")语句与segfault崩溃。这是回溯的顶部:

(gdb) bt
#0  readNative<int> (offset=0, t=<synthetic pointer>, this=<optimized out>) at src/mongo/base/data_view.h:46
#1  readNative<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:53
#2  readLE<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:59
#3  objsize (this=0x7f74340022e0) at src/mongo/bson/bsonobj.h:309
#4  BSONObjIterator (jso=..., this=<synthetic pointer>) at src/mongo/bson/bsonobjiterator.h:42
#5  mongo::BSONObj::getField (this=0x7f74340022e0, name=...) at src/mongo/bson/bsonobj.cpp:635
...

我使用results.push_back(r.copy())代替results.push_back(r)解决了问题。因此,可能在r块范围结束时销毁while对象时导致错误,导致副本在向量中被推回到不稳定状态。推回r的副本而不将块范围作为新变量似乎可以解决问题。

所以,我有以下问题:

  1. std::vector的查询结果中存储BSONObj的最佳方法是什么?我想我找到了一个合理的解决方案,但不确定这是否是最好的解决方案。

  2. 为什么使用push_back(r)的代码适用于小型文档?如果正确的方法是使用r.copy()来避免在r块范围结束时销毁while的问题,我理解它应该始终失败,不仅仅是在大约1.1的对象的情况下MB。

  3. 我使用MongoDB C ++驱动程序legacy-1.0.7(如果它可能有帮助,或者问题可能与特定版本的MongoDB C ++驱动程序有关)。

1 个答案:

答案 0 :(得分:1)

nextSafe返回的BSONObj对象不拥有其数据,并且随后对nextSafe的调用无效。

因此,您的向量将填充无效的BSONObj对象。

相反,在向量推回之前,在游标结果上调用BSONObj :: getOwned()。

如果你在AddressSanitizer或valgrind下运行你的程序,你几乎肯定会看到释放后使用类型的错误。