Question

我有数据集，它是由940个属性和450个实例构建的，我正在尝试找到最佳分类器以获得最佳结果。我已经使用了WEKA建议的每个分类器（例如J48，costSensitive，几个分类器的组合等）。我发现的最佳解决方案是J48树，精度为91.7778％混淆矩阵是：

394  27 |   a = NON_C
 10  19 |   b = C

我希望在TN和TP的稀释矩阵中获得更好的重复性，每种方法的准确度至少为90％。有什么我可以做些来改善这一点（例如长时间运行分类器扫描所有选项？其他想法我没有想到？这是文件：

请帮助!!

Answer 1

我猜你有一个数据集，只是尝试了所有可能的算法......

通常，考虑问题是一件好事：

仅查找和使用相关功能（属性），否则任务可能很吵。相关功能= 功能高与班级相关（NON_C，C）。
您的数据集存在偏差，即NON_C的数量远远高于C. 有时，在正面和负面的相同部分（在您的情况下为NON_C和C）示例中训练算法会很有帮助。并在自然（真实）部分交叉验证
训练数据的大小与数量相比较小特征。也许增加实例数量会有所帮助......

...

Answer 2

您可以采取一些措施来改善分类结果。

首先，您的训练数据似乎严重失衡。通过对这种不平衡的训练，您几乎在任何分类算法中都会产生显着的偏差

其次，您拥有的功能数量大于示例。考虑使用L1和/或L2正则化来提高结果的质量。

第三，考虑将您的数据投影到较低维度的PCA空间，例如包含90％的差异。这将消除训练数据中的大部分噪音。

第四，确保您正在对数据的不同部分进行培训和测试。根据您的描述，您似乎正在训练和评估相同的数据，这是一个很大的禁忌。