如何通过应用WEKA计算垃圾短信的“特征向量”?

时间:2015-12-18 07:17:27

标签: machine-learning classification weka feature-extraction

我想实现邮件过滤;在应用WEKA时通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。

如何通过WEKA的应用获取数据集的“特征向量”?此向量应包含100个字的垃圾邮件,其频率最高,权重最高。

数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

1 个答案:

答案 0 :(得分:1)

我没有使用WEKA,但是我使用Matlab做了同样的事情,作为第7周由斯坦福大学的Andrew NG博士提供的机器课程的一部分。 要创建特征向量,您可以搜索电子邮件以查看是否存在每个单词。然后,特征向量将是零和1的向量,其中一个意味着相应的单词存在而零意味着它不存在。