应用错误收集

如何通过应用WEKA计算垃圾短信的“特征向量”？

时间：2015-12-18 07:17:27

标签： machine-learning classification weka feature-extraction

我想实现邮件过滤;在应用WEKA时通过机器学习将电子邮件分类为垃圾邮件或合法（文本分类）。

如何通过WEKA的应用获取数据集的“特征向量”？此向量应包含100个字的垃圾邮件，其频率最高，权重最高。

数据集：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

1 个答案:

答案 0 :(得分：1)

我没有使用WEKA，但是我使用Matlab做了同样的事情，作为第7周由斯坦福大学的Andrew NG博士提供的机器课程的一部分。要创建特征向量，您可以搜索电子邮件以查看是否存在每个单词。然后，特征向量将是零和1的向量，其中一个意味着相应的单词存在而零意味着它不存在。