kNN对垃圾邮件分类的改进

时间:2014-03-22 10:18:56

标签: matlab machine-learning classification spam knn

目前我正在尝试使用kNN分类对垃圾邮件进行分类。数据集以词袋表示法表示,它包含大约。大约10000次观察900个功能。 Matlab是我用来处理数据的工具。

在最后几天,我玩了几种机器学习方法:SVM,Bayes和kNN。在我看来,当涉及到最小化误报率时,kNN的表现胜过SVM和贝叶斯。检查10次交叉验证我使用k = 9和Manhattan-Distance获得0.0025的误报率。汉明距离在同一地区执行。

为了进一步提高我的FPR,我试图用PCA预处理我的数据,但是我的FPR值为0.08是不可接受的。

您是否知道如何调整数据集以获得更好的FPR?

PS:是的,这是我必须完成的任务才能通过机器学习课程。

1 个答案:

答案 0 :(得分:0)

尝试的东西:重复计算训练数据中的非垃圾邮件样本。比如说,1000个样本中有500个是非垃圾邮件。在对非垃圾邮件进行重复计算后,您将获得1500个样本的训练集。这可能使假阳性测试样品更接近正近邻。请注意,整体性能可能会受到影