什么是一个很好的开源软件包,用于在大型Rails站点上构建灵活的垃圾邮件检测?

时间:2011-06-03 21:37:30

标签: ruby linux soa spam bayesian

我的网站越来越大,它开始通过各种渠道吸引大量垃圾邮件。该网站有许多不同类型的UGC(个人资料,论坛,博客评论,状态更新,私人消息等)。我正在进行各种缓解措施,我希望以闪电般的方式进行部署,以使垃圾邮件发送者相信我们不是一个有价值的目标。我对我正在做的功能有很高的信心,但是缺少的一件就是一次性杀死所有旧的垃圾邮件。

这就是我所拥有的:

  • 大好/坏的语料库(5位数不好,6或7位数字好)。很多垃圾邮件都有非常可靠的指纹,而且我已经忽略它6个月的事实有助于:)
  • 部署到AWS的大型模块化Rails站点。它不是一个巨大的流量站点,但我们在SOA的开头运行了8个实例。
  • Ruby,Redis,Resque,MySQL,Varnish,Nginx,Unicorn,Chef,所有关于Gentoo

我的要求:

  1. 我希望它在数据量方面表现得相当好(因此我对纯红宝石解决方案持谨慎态度)。
  2. 我应该可以针对不同类型的内容(419-scam vs僵尸网络链接垃圾邮件)进行多种分类培训
  3. 我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素。
  4. 最终我想构建一个与Ruby一起使用的漂亮界面。如果这需要我的手弄脏C或其他什么,我可以处理它,但如果可以的话我会避免它。
  5. 我意识到这是一个冗长而模糊的问题,但我正在寻找的主要是一系列优质软件包,其次是来自某人的随意想法,这些人构建了一个类似于系统的方法。

1 个答案:

答案 0 :(得分:5)

我们寻找一个可接受的开源解决方案而没有找到。

如果您得出相同的结论并决定考虑专有反垃圾邮件,请查看付费的Akismet协作垃圾邮件过滤服务。我们在十几个中型网站上获得了不错的表现。它通过机架和rackismet集成了rails。