最快的C ++容器:独特的价值观

时间:2011-01-11 16:12:57

标签: c++ algorithm search data-structures vector

我正在编写一个与MySQL数据库连接的电子邮件应用程序。我有两个表来源我的数据,其中一个包含取消订阅,另一个是标准用户表。截至目前,我正在创建一个指向电子邮件对象的指针向量,并最初将所有未订阅的电子邮件存储在其中。然后我有一个标准的SQL循环,我在其中检查电子邮件是否在取消订阅向量中,然后将其添加到全局发送电子邮件向量中。我的问题是,有更有效的方法吗?我必须在我的系统中搜索每个电子邮件的unsub向量,最多50K不同。有更好的搜索结构吗?而且,一个更好的结构来维护一个独特的价值集合?如果它已经包含它,那么它可能会简单地丢弃该值?

4 个答案:

答案 0 :(得分:7)

如果您的C ++标准库实现支持它,请考虑使用std::unordered_set std::hash_set

你也可以使用std::set,虽然它的开销可能更高(这取决于为对象生成散列的成本与多次比较两个对象的成本)。

如果您确实使用基于节点的容器,例如setunordered_set,那么与从vector中删除相比,您还可以获得相对便宜的元素删除。

答案 1 :(得分:5)

  1. 这样的任务(设置操作)最好留给执行它们的MEANT - 数据库!

    E.g。类似的东西:

     SELECT email FROM all_emails_table e WHERE NOT EXISTS (
         SELECT 1 FROM unsubscribed u where e.email=u.email
     )
    
  2. 如果您想要一个算法,您可以通过检索电子邮件列表和取消订阅列表作为ORDERED列表来快速完成此操作。然后,您可以浏览电子邮件列表(已订购),当您这样做时,您可以沿着取消订阅列表滑行。这个想法是你向前移动1个具有“最大”当前“元素的列表。这个算法是O(M + N)而不是O(M * N),就像你当前的那个

  3. 或者,您可以执行一个哈希映射,该映射从未订阅的电子邮件地址映射到1.然后您在该映射上执行find()调用,对于每个查找,正确的哈希实现是O(1) 。 不幸的是,C ++中没有Hash Map标准 - 请参阅this SO question for existing implementations(有几个想法有SGI的STL hash_map和Boost和/或TR1 std::tr1::unordered_map)。

    该帖子的评论之一表明它将被添加到标准中:“考虑到这一点,C ++标准库技术报告引入了无序的关联容器,它们是使用哈希表实现的,现在它们已被添加参考C ++标准的工作草案。“

答案 2 :(得分:4)

将您的电子邮件地址存储在std::set或使用std::set_difference()

答案 3 :(得分:1)

我认为最好的方法是在MySQL内部。您可以使用另一列BIT列修改用户表架构,以“取消订阅”。更好的是:为“删除日期”添加DATETIME列,默认值为NULL

如果使用BIT列,您的查询将变为:

SELECT * FROM `users` WHERE `unsubscribed` <> 0b1;

如果使用DATETIME列,您的查询将变为:

SELECT * FROM `users` WHERE `date_unsubscribed` IS NULL;