WEKA使用stringtowordvector使用SpamAssassin数据集进行预处理

时间:2013-04-21 16:13:11

标签: weka spamassassin

我目前正在开展一个项目,我将使用朴素的贝叶斯分类方法将电子邮件归类为垃圾邮件或清理。我正在使用WEKA和着名的SpamAssassin数据集。 (数据集可在此处找到:http://www.csmining.org/index.php/spam-assassin-datasets.html)。

我对WEKA的经验很少,但我被告知在预处理数据时使用stringtowordvector过滤器。我很困惑如何做到这一点。有没有人使用过SpamAssassin数据和WEKA?有没有人有任何有用的链接来协助预处理?

1 个答案:

答案 0 :(得分:1)

使用以下教程Text Classification and Clustering with WEKA 。您需要将文本数据更改为数字向量,StringToWordVector过滤器可以完成此任务。