Question

我有一个std::set的集合。我希望以最快的方式找到此集合中所有集合的交集。集合中的集合数量通常非常小（~5-10），每个集合中的元素数量通常小于1000，但偶尔可以达到10000左右。但我需要做几十个交叉点成千上万的时间，尽可能快。我尝试按如下方式对几种方法进行基准测试：

最初复制第一组的std::set对象中的就地交叉点。然后对于后续集合，它迭代自身的所有元素和集合的第i组，并根据需要从自身中删除项目。
将std::set_intersection用于临时std::set，将内容交换到当前集，然后再次找到当前集与下一集的交集并插入临时集，依此类推。
手动迭代所有集合中的所有元素，如1），但使用vector作为目标容器而不是std::set。
与4相同，但使用std::list代替vector，怀疑list会从中间提供更快的删除。
使用哈希集（std::unordered_set）并检查所有集合中的所有项目。

事实证明，当每个集合中的元素数量较少时，使用vector会稍微快一些，而对于较大的集合，list稍微快一些。使用set的就地比两者慢得多，其次是set_intersection和哈希集。是否有更快的算法/数据结构/技巧来实现这一目标？如果需要，我可以发布代码片段。谢谢！

Answer 1

您可能想尝试std::set_intersection()的泛化：算法是对所有集合使用迭代器：

如果任何迭代器已到达其相应集合的end()，则表明您已完成。因此，可以假设所有迭代器都是有效的。
将第一个迭代器的值作为下一个候选值x。
浏览迭代器列表，std::find_if()第一个元素至少与x一样大。
如果该值大于x，请将其作为新的候选值，并在迭代器序列中再次搜索。
如果所有迭代器都在值x上，则找到了交集的元素：记录它，递增所有迭代器，重新开始。

Answer 2

夜晚是一个很好的顾问，我想我可能有一个想法;）

如今，内存比CPU慢得多，如果所有数据都适合L1缓存，那么它很容易溢出到L2或L3：5组1000个元素已经是5000个元素，意味着5000个节点，以及set node包含至少3个指针+对象（即32位机器上至少16个字节，64位机器上32个字节）=＆gt;至少80k内存和最近的CPU只有32k的L1D，所以我们已经溢出L2
之前的事实因为集合节点可能分散在内存中而不是紧密地拼凑在一起的问题而复杂化，这意味着缓存行的一部分充满了完全不相关的东西。这可以通过提供一个保持节点彼此接近的分配器来缓解。
这更加复杂，因为CPU在顺序读取方面要好得多（他们可以在你需要之前预取内存，所以你不要等待它）而不是随机读取（不幸的是，树结构导致非常随机的读取）

这就是为什么速度很重要的原因，vector（或者可能是deque）是如此伟大的结构：它们与记忆非常相配。因此，我肯定会建议使用vector作为我们的中间结构;虽然需要注意只从极端插入/删除以避免重新定位。

所以我想到了一个相当简单的方法：

#include <cassert>

#include <algorithm>
#include <set>
#include <vector>

// Do not call this method if you have a single set...
// And the pointers better not be null either!
std::vector<int> intersect(std::vector< std::set<int> const* > const& sets) {
    for (auto s: sets) { assert(s && "I said no null pointer"); }

    std::vector<int> result; // only return this one, for NRVO to kick in

    // 0. Check obvious cases
    if (sets.empty()) { return result; }

    if (sets.size() == 1) {
        result.assign(sets.front()->begin(), sets.front()->end());
        return result;
    }


    // 1. Merge first two sets in the result
    std::set_intersection(sets[0]->begin(), sets[0]->end(),
                          sets[1]->begin(), sets[1]->end(),
                          std::back_inserter(result));

    if (sets.size() == 2) { return result; }


    // 2. Merge consecutive sets with result into buffer, then swap them around
    //    so that the "result" is always in result at the end of the loop.

    std::vector<int> buffer; // outside the loop so that we reuse its memory

    for (size_t i = 2; i < sets.size(); ++i) {
        buffer.clear();

        std::set_intersection(result.begin(), result.end(),
                              sets[i]->begin(), sets[i]->end(),
                              std::back_inserter(buffer));

        swap(result, buffer);
    }

    return result;
}

似乎correct，显然我不能保证它的速度。

C ++中集合集的高效集合交集

2 个答案: