应用错误收集

WEKA使用stringtowordvector使用SpamAssassin数据集进行预处理

时间：2013-04-21 16:13:11

标签： weka spamassassin

我目前正在开展一个项目，我将使用朴素的贝叶斯分类方法将电子邮件归类为垃圾邮件或清理。我正在使用WEKA和着名的SpamAssassin数据集。（数据集可在此处找到：http://www.csmining.org/index.php/spam-assassin-datasets.html）。

我对WEKA的经验很少，但我被告知在预处理数据时使用stringtowordvector过滤器。我很困惑如何做到这一点。有没有人使用过SpamAssassin数据和WEKA？有没有人有任何有用的链接来协助预处理？

1 个答案:

答案 0 :(得分：1)

使用以下教程Text Classification and Clustering with WEKA 。您需要将文本数据更改为数字向量，StringToWordVector过滤器可以完成此任务。