我想实现邮件过滤;在应用WEKA时通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。
如何通过WEKA的应用获取数据集的“特征向量”?此向量应包含100个字的垃圾邮件,其频率最高,权重最高。
数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff
答案 0 :(得分:1)
我没有使用WEKA,但是我使用Matlab做了同样的事情,作为第7周由斯坦福大学的Andrew NG博士提供的机器课程的一部分。 要创建特征向量,您可以搜索电子邮件以查看是否存在每个单词。然后,特征向量将是零和1的向量,其中一个意味着相应的单词存在而零意味着它不存在。