我正在编写一个与MySQL数据库连接的电子邮件应用程序。我有两个表来源我的数据,其中一个包含取消订阅,另一个是标准用户表。截至目前,我正在创建一个指向电子邮件对象的指针向量,并最初将所有未订阅的电子邮件存储在其中。然后我有一个标准的SQL循环,我在其中检查电子邮件是否在取消订阅向量中,然后将其添加到全局发送电子邮件向量中。我的问题是,有更有效的方法吗?我必须在我的系统中搜索每个电子邮件的unsub向量,最多50K不同。有更好的搜索结构吗?而且,一个更好的结构来维护一个独特的价值集合?如果它已经包含它,那么它可能会简单地丢弃该值?
答案 0 :(得分:7)
如果您的C ++标准库实现支持它,请考虑使用std::unordered_set
或std::hash_set
。
你也可以使用std::set
,虽然它的开销可能更高(这取决于为对象生成散列的成本与多次比较两个对象的成本)。
如果您确实使用基于节点的容器,例如set
或unordered_set
,那么与从vector
中删除相比,您还可以获得相对便宜的元素删除。
答案 1 :(得分:5)
这样的任务(设置操作)最好留给执行它们的MEANT - 数据库!
E.g。类似的东西:
SELECT email FROM all_emails_table e WHERE NOT EXISTS (
SELECT 1 FROM unsubscribed u where e.email=u.email
)
如果您想要一个算法,您可以通过检索电子邮件列表和取消订阅列表作为ORDERED列表来快速完成此操作。然后,您可以浏览电子邮件列表(已订购),当您这样做时,您可以沿着取消订阅列表滑行。这个想法是你向前移动1个具有“最大”当前“元素的列表。这个算法是O(M + N)而不是O(M * N),就像你当前的那个
或者,您可以执行一个哈希映射,该映射从未订阅的电子邮件地址映射到1.然后您在该映射上执行find()
调用,对于每个查找,正确的哈希实现是O(1) 。
不幸的是,C ++中没有Hash Map标准 - 请参阅this SO question for existing implementations(有几个想法有SGI的STL hash_map和Boost和/或TR1 std::tr1::unordered_map
)。
该帖子的评论之一表明它将被添加到标准中:“考虑到这一点,C ++标准库技术报告引入了无序的关联容器,它们是使用哈希表实现的,现在它们已被添加参考C ++标准的工作草案。“
答案 2 :(得分:4)
将您的电子邮件地址存储在std::set
或使用std::set_difference()
。
答案 3 :(得分:1)
我认为最好的方法是在MySQL内部。您可以使用另一列BIT
列修改用户表架构,以“取消订阅”。更好的是:为“删除日期”添加DATETIME
列,默认值为NULL
。
如果使用BIT
列,您的查询将变为:
SELECT * FROM `users` WHERE `unsubscribed` <> 0b1;
如果使用DATETIME
列,您的查询将变为:
SELECT * FROM `users` WHERE `date_unsubscribed` IS NULL;