Wordpress有一个名为Akismet的垃圾邮件过滤插件,它似乎能够将任何文本块分类为垃圾邮件。唯一需要注意的是,你需要通过他们的界面和他们的数据库/算法不是开源的或随时可用的。
还有商业提供商提供可通过Web访问的API,以便对用户在Web应用程序中提交的电子邮件,评论或任何其他文本进行分类。
是否有任何类型的开源或可自由访问的数据库可以将文本块分类为垃圾邮件/非垃圾邮件?
编辑:以下是我想要的更清晰的解释
基本上我希望有一个广泛的数据库,其中某些短语可能是垃圾邮件。由于(我假设)垃圾邮件发送者垃圾邮件所有电子邮件地址同等,通过使用此数据库预先填充我的贝叶斯垃圾邮件过滤器,我可以创建一个应用程序,通过捕获大多数垃圾邮件而不需要任何用户培训。
答案 0 :(得分:2)
可能不完全是您正在寻找的内容,但MoinMoin Wiki维护者在此处保留了一份Wiki垃圾正则表达式的中心列表:http://master.moinmo.in/BadContent
答案 1 :(得分:1)
根据评论更新:
我认为一个简单的数据库不会起作用。大多数垃圾邮件是算法生成的(例如,评论垃圾邮件通常包含帖子中的内容)。 Akismet做了很多事情,可能包括链接分析和已知垃圾邮件签名的使用,但他们不发布它。
我已经向classify good rather than bad content了解了一些有趣的AI项目。您还可以查看Spam Karma,它基于各种垃圾邮件触发器(加载页面后立即响应的帖子等)分析博客评论。
原始答案(DNS黑名单):
答案 2 :(得分:1)
也许这完全是一个死的问题 - 但是,请检查一下: http://www.stopforumspam.com 使用他们的API检查IP或输入的用户名或电子邮件对他们的数据库。但我建议你使用cURL和它的超时参数 - 服务有时也可能不会超时。