我可以在NLTK中使用哪种垃圾邮件语料库?

时间:2012-03-26 17:14:35

标签: python nltk spam-prevention corpus

我的问题与this one非常相关,但我决定打开另一个问题主题。我希望它没事。

我正在使用Python中的NLTK构建垃圾邮件过滤器,但我刚刚开始。

我想知道我可以使用哪种垃圾邮件语料库以及如何导入它?我没有在NLTK'垃圾邮件语料库(here)中找到任何“内置”。

提前谢谢。

2 个答案:

答案 0 :(得分:9)

presentation使用enron-spam dataset(200,000多封电子邮件)。

  

培训和测试集来自200,000+安然的数据集   包含“垃圾邮件”和“火腿”电子邮件的电子邮件

答案 1 :(得分:1)

垃圾邮件并不难获得。大量合理新鲜的垃圾邮件也不一定是一个很大的挑战;最大的难题是如何获得火腿。如果您只是构建自己的垃圾邮件过滤器,当然,您可以使用自己的火腿。

SpamAssassin公共语料库已经变得很老了,但是你有它; http://spamassassin.apache.org/publiccorpus/

还有来自TREC垃圾邮件轨道的语料库,它们有点大,但没有更新或更少偏见; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

各种发烧友继续在网上发布他们的垃圾邮件,但大多数都没有包含完整的标题等。如果你只对"包含的话语"过滤,也许这很好。