Question

我正在编写一个与MySQL数据库连接的电子邮件应用程序。我有两个表来源我的数据，其中一个包含取消订阅，另一个是标准用户表。截至目前，我正在创建一个指向电子邮件对象的指针向量，并最初将所有未订阅的电子邮件存储在其中。然后我有一个标准的SQL循环，我在其中检查电子邮件是否在取消订阅向量中，然后将其添加到全局发送电子邮件向量中。我的问题是，有更有效的方法吗？我必须在我的系统中搜索每个电子邮件的unsub向量，最多50K不同。有更好的搜索结构吗？而且，一个更好的结构来维护一个独特的价值集合？如果它已经包含它，那么它可能会简单地丢弃该值？

Answer 1

如果您的C ++标准库实现支持它，请考虑使用std::unordered_set 或std::hash_set。

你也可以使用std::set，虽然它的开销可能更高（这取决于为对象生成散列的成本与多次比较两个对象的成本）。

如果您确实使用基于节点的容器，例如set或unordered_set，那么与从vector中删除相比，您还可以获得相对便宜的元素删除。

Answer 2

这样的任务（设置操作）最好留给执行它们的MEANT - 数据库！

E.g。类似的东西：

 SELECT email FROM all_emails_table e WHERE NOT EXISTS (
     SELECT 1 FROM unsubscribed u where e.email=u.email
 )

如果您想要一个算法，您可以通过检索电子邮件列表和取消订阅列表作为ORDERED列表来快速完成此操作。然后，您可以浏览电子邮件列表（已订购），当您这样做时，您可以沿着取消订阅列表滑行。这个想法是你向前移动1个具有“最大”当前“元素的列表。这个算法是O（M + N）而不是O（M * N），就像你当前的那个
或者，您可以执行一个哈希映射，该映射从未订阅的电子邮件地址映射到1.然后您在该映射上执行find()调用，对于每个查找，正确的哈希实现是O（1）。不幸的是，C ++中没有Hash Map标准 - 请参阅this SO question for existing implementations（有几个想法有SGI的STL hash_map和Boost和/或TR1 std::tr1::unordered_map）。

该帖子的评论之一表明它将被添加到标准中：“考虑到这一点，C ++标准库技术报告引入了无序的关联容器，它们是使用哈希表实现的，现在它们已被添加参考C ++标准的工作草案。“

Answer 3

将您的电子邮件地址存储在std::set或使用std::set_difference()。

Answer 4

我认为最好的方法是在MySQL内部。您可以使用另一列BIT列修改用户表架构，以“取消订阅”。更好的是：为“删除日期”添加DATETIME列，默认值为NULL。

如果使用BIT列，您的查询将变为：

SELECT * FROM `users` WHERE `unsubscribed` <> 0b1;

如果使用DATETIME列，您的查询将变为：

SELECT * FROM `users` WHERE `date_unsubscribed` IS NULL;

最快的C ++容器：独特的价值观

4 个答案: