应用错误收集

时间：2012-03-26 17:14:35

标签： python nltk spam-prevention corpus

我的问题与this one非常相关，但我决定打开另一个问题主题。我希望它没事。

我正在使用Python中的NLTK构建垃圾邮件过滤器，但我刚刚开始。

我想知道我可以使用哪种垃圾邮件语料库以及如何导入它？我没有在NLTK'垃圾邮件语料库（here）中找到任何“内置”。

提前谢谢。

答案 0 :(得分：9)

此presentation使用enron-spam dataset（200,000多封电子邮件）。

培训和测试集来自200,000+安然的数据集包含“垃圾邮件”和“火腿”电子邮件的电子邮件

答案 1 :(得分：1)

垃圾邮件并不难获得。大量合理新鲜的垃圾邮件也不一定是一个很大的挑战;最大的难题是如何获得火腿。如果您只是构建自己的垃圾邮件过滤器，当然，您可以使用自己的火腿。

SpamAssassin公共语料库已经变得很老了，但是你有它; http://spamassassin.apache.org/publiccorpus/

还有来自TREC垃圾邮件轨道的语料库，它们有点大，但没有更新或更少偏见; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

各种发烧友继续在网上发布他们的垃圾邮件，但大多数都没有包含完整的标题等。如果你只对＆＃34;包含的话语＆＃34;过滤，也许这很好。