大量属性最佳分类器

时间:2013-12-20 10:11:54

标签: machine-learning data-mining

我有数据集,它是由940个属性和450个实例构建的,我正在尝试找到最佳分类器以获得最佳结果。 我已经使用了WEKA建议的每个分类器(例如J48,costSensitive,几个分类器的组合等)。 我发现的最佳解决方案是J48树,精度为91.7778% 混淆矩阵是:

394  27 |   a = NON_C
 10  19 |   b = C

我希望在TN和TP的稀释矩阵中获得更好的重复性,每种方法的准确度至少为90%。 有什么我可以做些来改善这一点(例如长时间运行分类器扫描所有选项?其他想法我没有想到? 这是文件:

https://googledrive.com/host/0B2HGuYghQl0nWVVtd3BZb2Qtekk/

请帮助!!

2 个答案:

答案 0 :(得分:1)

我猜你有一个数据集,只是尝试了所有可能的算法......

通常,考虑问题是一件好事:

  1. 仅查找和使用相关功能(属性),否则 任务可能很吵。相关功能= 功能高 与班级相关(NON_C,C)

  2. 您的数据集存在偏差,即NON_C的数量远远高于C. 有时,在正面和负面的相同部分(在您的情况下为NON_C和C)示例中训练算法会很有帮助。并在自然(真实)部分交叉验证

  3. 训练数据的大小与数量相比较小 特征。也许增加实例数量会有所帮助......

    ...

答案 1 :(得分:1)

您可以采取一些措施来改善分类结果。

首先,您的训练数据似乎严重失衡。通过对这种不平衡的训练,您几乎在任何分类算法中都会产生显着的偏差

其次,您拥有的功能数量大于示例。考虑使用L1和/或L2正则化来提高结果的质量。

第三,考虑将您的数据投影到较低维度的PCA空间,例如包含90%的差异。这将消除训练数据中的大部分噪音。

第四,确保您正在对数据的不同部分进行培训和测试。根据您的描述,您似乎正在训练和评估相同的数据,这是一个很大的禁忌。