我总是对高质量的Gmail垃圾邮件过滤器感到惊讶。在去年,它过滤了99.95%的垃圾邮件,并且只错误地阻止了一封邮件。相比之下,我使用的任何其他邮件服务每50封邮件至少会出现一次错误。
Gmail内部如何达到这种质量水平?它是基于客户的反馈(即,如果 N 客户阻止邮件作为垃圾邮件,它被归类为每个其他客户的垃圾邮件)?还是有一些伎俩?也许一个基本的过滤算法可以过滤最明显的垃圾邮件,一些疑难案例会被真人分析?
答案 0 :(得分:8)
简单来说,这是基于社区反馈。以下是官方解释的引用:
Gmail用户在将垃圾邮件保留在数百万个收件箱中方面发挥着重要作用。当Gmail社区通过点击来报告特定电子邮件为垃圾邮件时,我们的系统会很快学会开始阻止类似的邮件。社区标记的垃圾邮件越多,我们的系统就越聪明。
您可以在Spam Explained页面上阅读更多相关内容。
答案 1 :(得分:7)
这是百万美元的问题,如果能够在stackOverflow上回答,那么每个人的垃圾邮件过滤器都会有效。
答案 2 :(得分:2)
我真的不知道Google究竟是如何进行SPAM过滤的(但我认为这毕竟是商业秘密)。如果您对SPAM过滤的工作原理感兴趣,我建议您查看贝叶斯SPAM过滤(http://en.wikipedia.org/wiki/Bayesian_spam_filtering)。这是一种相当容易理解的方法。
答案 3 :(得分:0)
Google最有可能使用分类器系统,例如Logistic回归或神经网络。最先进的垃圾邮件检测经常使用诸如此类的机器学习算法。
输出分类是“垃圾邮件”或“非垃圾邮件”,我确定输入是谷歌的绝密,但我确定某些电子邮件文字短语,例如“立即购买”,“特价促销” ,“伟哥”或“男性增强”都是他们模型中的因素。
答案 4 :(得分:0)
这方面没有官方发布,大多数建议只是观察/专家观点。
根据我对我们提供的电子邮件的观察,以下是我的发现:
<强> 1。用户参与是关键:如果用户没有参与您的电子邮件,那么您的电子邮件必然会被标记为垃圾邮件。 以下是一些指标: - 您发送电子邮件的人,以及您发送电子邮件的频率 - 您打开哪些电子邮件 - 您回复哪些电子邮件 - 您经常阅读的电子邮件中的关键字 - 您加注星标,存档或删除的电子邮件
<强> 2。发件人域名声明:发送域名的过往历史记录是什么?如果过去用户参与度较高,那么来自同一域名的新电子邮件在Inbox中登陆的概率很高。
Google正在使用复杂的AI和机器学习算法来实现这一目标。虽然您可以通过更改IP,域或返回路径获得一些成功,但所有这些都将是一个非常短期的黑客攻击。