email - Gmail垃圾邮件过滤器如何运作

时间：2010-07-22 19:40:53

标签： email gmail spam-prevention

我总是对高质量的Gmail垃圾邮件过滤器感到惊讶。在去年，它过滤了99.95％的垃圾邮件，并且只错误地阻止了一封邮件。相比之下，我使用的任何其他邮件服务每50封邮件至少会出现一次错误。

Gmail内部如何达到这种质量水平？它是基于客户的反馈（即，如果 N 客户阻止邮件作为垃圾邮件，它被归类为每个其他客户的垃圾邮件）？还是有一些伎俩？也许一个基本的过滤算法可以过滤最明显的垃圾邮件，一些疑难案例会被真人分析？

答案 0 :(得分：8)

简单来说，这是基于社区反馈。以下是官方解释的引用：

Gmail用户在将垃圾邮件保留在数百万个收件箱中方面发挥着重要作用。当Gmail社区通过点击来报告特定电子邮件为垃圾邮件时，我们的系统会很快学会开始阻止类似的邮件。社区标记的垃圾邮件越多，我们的系统就越聪明。

您可以在Spam Explained页面上阅读更多相关内容。

答案 1 :(得分：7)

这是百万美元的问题，如果能够在stackOverflow上回答，那么每个人的垃圾邮件过滤器都会有效。

答案 2 :(得分：2)

我真的不知道Google究竟是如何进行SPAM过滤的（但我认为这毕竟是商业秘密）。如果您对SPAM过滤的工作原理感兴趣，我建议您查看贝叶斯SPAM过滤（http://en.wikipedia.org/wiki/Bayesian_spam_filtering）。这是一种相当容易理解的方法。

答案 3 :(得分：0)

Google最有可能使用分类器系统，例如Logistic回归或神经网络。最先进的垃圾邮件检测经常使用诸如此类的机器学习算法。

输出分类是“垃圾邮件”或“非垃圾邮件”，我确定输入是谷歌的绝密，但我确定某些电子邮件文字短语，例如“立即购买”，“特价促销” ，“伟哥”或“男性增强”都是他们模型中的因素。

答案 4 :(得分：0)

这方面没有官方发布，大多数建议只是观察/专家观点。

根据我对我们提供的电子邮件的观察，以下是我的发现：

<强> 1。用户参与是关键：如果用户没有参与您的电子邮件，那么您的电子邮件必然会被标记为垃圾邮件。以下是一些指标： - 您发送电子邮件的人，以及您发送电子邮件的频率 - 您打开哪些电子邮件 - 您回复哪些电子邮件 - 您经常阅读的电子邮件中的关键字 - 您加注星标，存档或删除的电子邮件

<强> 2。发件人域名声明：发送域名的过往历史记录是什么？如果过去用户参与度较高，那么来自同一域名的新电子邮件在Inbox中登陆的概率很高。

Google正在使用复杂的AI和机器学习算法来实现这一目标。虽然您可以通过更改IP，域或返回路径获得一些成功，但所有这些都将是一个非常短期的黑客攻击。