我的问题与this one非常相关,但我决定打开另一个问题主题。我希望它没事。
我正在使用Python中的NLTK构建垃圾邮件过滤器,但我刚刚开始。
我想知道我可以使用哪种垃圾邮件语料库以及如何导入它?我没有在NLTK'垃圾邮件语料库(here)中找到任何“内置”。
提前谢谢。
答案 0 :(得分:9)
此presentation使用enron-spam dataset(200,000多封电子邮件)。
培训和测试集来自200,000+安然的数据集 包含“垃圾邮件”和“火腿”电子邮件的电子邮件
答案 1 :(得分:1)
垃圾邮件并不难获得。大量合理新鲜的垃圾邮件也不一定是一个很大的挑战;最大的难题是如何获得火腿。如果您只是构建自己的垃圾邮件过滤器,当然,您可以使用自己的火腿。
SpamAssassin公共语料库已经变得很老了,但是你有它; http://spamassassin.apache.org/publiccorpus/
还有来自TREC垃圾邮件轨道的语料库,它们有点大,但没有更新或更少偏见; http://plg.uwaterloo.ca/~gvcormac/treccorpus/
各种发烧友继续在网上发布他们的垃圾邮件,但大多数都没有包含完整的标题等。如果你只对"包含的话语"过滤,也许这很好。