公开可用的垃圾邮件过滤器培训集

时间:2011-01-20 06:08:55

标签: machine-learning spam-prevention training-data

我是机器学习的新手,而对于我的第一个项目,我想写一个朴素的贝叶斯垃圾邮件过滤器。我想知道是否有任何公开的标记垃圾邮件/非垃圾邮件的培训集,最好是纯文本而不是关系数据库的转储(除非它们打印那些?)。

我知道这种公开可用的数据库存在于其他类型的文本分类中,特别是新闻文章文本。我只是无法为电子邮件找到同样的东西。

6 个答案:

答案 0 :(得分:30)

以下是我要找的内容:http://untroubled.org/spam/

这个档案在1998年至2011年期间有大约1GB的压缩累积垃圾邮件。现在我只需要收到非垃圾邮件。因此,我只需使用getmail程序和mattcutts.com

上的教程查询我自己的Gmail

答案 1 :(得分:10)

当然,有Spambase,据我所知,它是机器学习文献中被广泛引用的垃圾邮件数据集。

我多次使用过这个数据集;每次我都对这个数据集的格式化和文档记录付出了多少努力。

Spambase集的一些特征:

  • 4601个数据点 - 全部完成

  • 每个都包含58个功能 (属性)

  • 每个数据点都标有“垃圾邮件”或 '没有垃圾邮件'

  • 约40%被标记为垃圾邮件

  • 的功能,都是连续的 (与离散相对)

  • 代表性功能:平均值 连续的资本顺序 字母


Spambase存档于UCI Machine Learning Repository;此外,Hastie等人也可以在Website上获得优秀的ML /统计计算论文 统计学习要素

答案 2 :(得分:8)

SpamAssassin有public corpus垃圾邮件和非垃圾邮件,虽然它在几年内没有更新。阅读readme.html文件以了解其中的内容。

答案 3 :(得分:6)

您可以考虑查看TREC垃圾邮件/火腿语料库(我认为是安然通过法院案件公开的电子邮件集合)。 TREC通常会运行一系列竞争性的文本处理任务,因此它可能会为您提供一些比较参考。

缺点是它们以原始mbox格式存储,尽管有许多语言的解析器(Apache Tika就是一个很好的例子)。

网页不是TREC,但这似乎是对数据链接的完美概述:http://plg.uwaterloo.ca/~gvcormac/spam/

答案 4 :(得分:4)

可以在kaggle找到更现代的垃圾邮件训练集。此外,您可以通过上传结果来测试分类器在其网站上的准确性。

答案 5 :(得分:1)

我还有一个答案,here您可以找到每日更新的贝叶斯数据库进行初始培训,还可以找到包含捕获的垃圾邮件的每日创建存档。您将在网站上找到如何使用它的说明。