我有数据集,它是由940个属性和450个实例构建的,我正在尝试找到最佳分类器以获得最佳结果。 我已经使用了WEKA建议的每个分类器(例如J48,costSensitive,几个分类器的组合等)。 我发现的最佳解决方案是J48树,精度为91.7778% 混淆矩阵是:
394 27 | a = NON_C
10 19 | b = C
我希望在TN和TP的稀释矩阵中获得更好的重复性,每种方法的准确度至少为90%。 有什么我可以做些来改善这一点(例如长时间运行分类器扫描所有选项?其他想法我没有想到? 这是文件:
https://googledrive.com/host/0B2HGuYghQl0nWVVtd3BZb2Qtekk/
请帮助!!
答案 0 :(得分:1)
我猜你有一个数据集,只是尝试了所有可能的算法......
通常,考虑问题是一件好事:
仅查找和使用相关功能(属性),否则 任务可能很吵。相关功能= 功能高 与班级相关(NON_C,C)。
您的数据集存在偏差,即NON_C的数量远远高于C. 有时,在正面和负面的相同部分(在您的情况下为NON_C和C)示例中训练算法会很有帮助。并在自然(真实)部分交叉验证
训练数据的大小与数量相比较小 特征。也许增加实例数量会有所帮助......
...
答案 1 :(得分:1)
您可以采取一些措施来改善分类结果。
首先,您的训练数据似乎严重失衡。通过对这种不平衡的训练,您几乎在任何分类算法中都会产生显着的偏差
其次,您拥有的功能数量大于示例。考虑使用L1和/或L2正则化来提高结果的质量。
第三,考虑将您的数据投影到较低维度的PCA空间,例如包含90%的差异。这将消除训练数据中的大部分噪音。
第四,确保您正在对数据的不同部分进行培训和测试。根据您的描述,您似乎正在训练和评估相同的数据,这是一个很大的禁忌。