我目前正在开展一个项目,我将使用朴素的贝叶斯分类方法将电子邮件归类为垃圾邮件或清理。我正在使用WEKA和着名的SpamAssassin数据集。 (数据集可在此处找到:http://www.csmining.org/index.php/spam-assassin-datasets.html)。
我对WEKA的经验很少,但我被告知在预处理数据时使用stringtowordvector过滤器。我很困惑如何做到这一点。有没有人使用过SpamAssassin数据和WEKA?有没有人有任何有用的链接来协助预处理?
答案 0 :(得分:1)
使用以下教程Text Classification and Clustering with WEKA 。您需要将文本数据更改为数字向量,StringToWordVector过滤器可以完成此任务。