检查邮政频率是垃圾邮件的好算法

时间:2011-10-20 07:57:55

标签: mysql algorithm frequency-analysis

我有一个人们可以发布文字的网站。每个帖子都存储在一个数据库中,其中包含海报的ip和帖子的时间。如果我能确定海报是机器人,垃圾邮件发送者等,我希望能够显示重新收据。

这样做的好算法是什么?最简单的选择是分析预定时间段(例如一分钟)中的帖子数量是否大于所选择的限制,例如10.但是,这有一个缺陷,即从同一个ip后面发布的多个人或者甚至是创建随机频率间隔的机器人。时间段,或低于该时间段限制的帖子。

显然没有“正确”的答案。然而,有些算法比其他算法更好,我只是想找到最好的算法。

1 个答案:

答案 0 :(得分:1)

您可以采用基于限制的方法,并充分利用website analytics

IP将在单个上下文中发布内容的次数必须有限制。例如,对于StackExchange问​​题(上下文),我的IP地址(在大多数情况下)将发布单个答案(而不是评论)。任何不止一个答案都是不常见的,因此是可疑的。在某些其他上下文中,频率可能高达几次,例如StackExchange注释。

然后必须限制用户在一次访问中花费的时间。如果您使用 google 网站分析,则必须知道用户在您网站上花费的平均时间。使时间限制稍微大于,或者你可以提出的任何其他标准,包括命中和试用方法。

此外,您可以使用blogger方法,但稍作更改。一旦用户登录或发布第一篇帖子,就不要在每个帖子上都有验证码。之后,仅在他/她之后的一段时间间隔或一些帖子之后才设置验证码。