Question

我有以下代码片段，它从查询游标中累积BSON文档，然后进行处理：

// Accumulate
std::vector<BSONObj> results;
while (cursor->more()) {
  BSONObj r = cursor->nextSafe();
  results.push_back(r);
}
...
// Process it (example)
for (unsigned int ix = 0; ix < results.size(); ix++) {
  BSONElement be = results[ix].getField("_id");
  // Do somtething with 'be'
  ...
}

此代码从一个时间（几个月）开始运行良好但我们最近发现，对于DB中的大型文档（大约1.1MB），results[ix].getField("_id")语句与segfault崩溃。这是回溯的顶部：

(gdb) bt
#0  readNative<int> (offset=0, t=<synthetic pointer>, this=<optimized out>) at src/mongo/base/data_view.h:46
#1  readNative<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:53
#2  readLE<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:59
#3  objsize (this=0x7f74340022e0) at src/mongo/bson/bsonobj.h:309
#4  BSONObjIterator (jso=..., this=<synthetic pointer>) at src/mongo/bson/bsonobjiterator.h:42
#5  mongo::BSONObj::getField (this=0x7f74340022e0, name=...) at src/mongo/bson/bsonobj.cpp:635
...

我使用results.push_back(r.copy())代替results.push_back(r)解决了问题。因此，可能在r块范围结束时销毁while对象时导致错误，导致副本在向量中被推回到不稳定状态。推回r的副本而不将块范围作为新变量似乎可以解决问题。

所以，我有以下问题：

从std::vector的查询结果中存储BSONObj的最佳方法是什么？我想我找到了一个合理的解决方案，但不确定这是否是最好的解决方案。
为什么使用push_back(r)的代码适用于小型文档？如果正确的方法是使用r.copy()来避免在r块范围结束时销毁while的问题，我理解它应该始终失败，不仅仅是在大约1.1的对象的情况下MB。

我使用MongoDB C ++驱动程序legacy-1.0.7（如果它可能有帮助，或者问题可能与特定版本的MongoDB C ++驱动程序有关）。

Answer 1

nextSafe返回的BSONObj对象不拥有其数据，并且随后对nextSafe的调用无效。

因此，您的向量将填充无效的BSONObj对象。

相反，在向量推回之前，在游标结果上调用BSONObj :: getOwned（）。

如果你在AddressSanitizer或valgrind下运行你的程序，你几乎肯定会看到释放后使用类型的错误。

在std :: vector中存储BSONObj对象与大文档

1 个答案: