我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件。该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等)。我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标。我对我正在做的功能有很高的信心,但是缺少的一件就是一次性杀死所有旧的垃圾邮件。
这就是我所拥有的:
- 大好/坏的语料库(5位数不好,6或7位数字好)。很多垃圾邮件都有非常可靠的指纹,而且我已经忽略它6个月的事实有助于:)
- 部署到AWS的大型模块化Rails站点。它不是一个巨大的流量站点,但我们在SOA的开头运行了8个实例。
- Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,所有关于Gentoo
我的要求:
- 我希望它在数据量方面表现得相当好(因此我对纯红宝石解决方案持谨慎态度)。
- 我应该可以针对不同类型的内容(419-scam vs僵尸网络链接垃圾邮件)进行多种分类培训
- 我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素。
- 最终我想构建一个与Ruby一起使用的漂亮界面。如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它。
醇>
我意识到这是一个冗长而模糊的问题,但我正在寻找的主要是一系列优质软件包,其次是来自某人的随意想法,这些人构建了一个类似于系统的方法。