应用错误收集

如何知道特征变量是否“足够好”以构建一个分类器

时间：2018-05-21 13:19:58

标签： machine-learning

为经典问题（如图像分类）构建分类器非常简单，因为通过对图像进行可视化，我们知道像素值确实包含有关目标的信息。但是，对于没有明显可视化模式的问题，我们应该如何评估或查看所收集的特征是否足以满足目标信息？或者，如果有一些标准可以让我们得出结论，所收集的功能根本不起作用。否则，我们必须尝试不同的算法或分类器来验证收集数据的可预测性。或者，如果有一个拇指规则说如果应用经典分类器，如SVM，随机森林和adaboost，我们无法获得具有合理准确度的分类器（70％），那么我们应该放弃并尝试找到一些其他更相关的功能。或者通过一些高昏暗的可视化工具，比如t-sne，如果在一些低暗暗的空间中没有清晰的图案，那么我们应该放弃。

1 个答案:

答案 0 :(得分：1)

首先，可能没有任何功能可以很好地解释数据。数据可能只是纯噪声而没有任何信号。因此，谈论任何级别的“合理准确性”，例如70％是不合适的。对于某些数据集，解释其方差的40％的模型将非常棒。

话虽如此，评估输入要素的最简单实用方法是计算每个输入要素与目标之间的相关性。

模型有自己的评估功能重要性的方法。