何时应用特征选择

时间:2016-05-03 18:41:27

标签: machine-learning feature-extraction feature-selection

我正在开发一种用于自动化机器学习的软件。

我观察到一些特征数量较少的数据集(4,5),如果我们应用特征选择,因此我的分类器模型的性能实际上会降低(由于信息丢失)......但在案例中如果我们应用特征选择,具有更多数量的特征的数据集,性能实际上提高了....... 所以我正在寻找一些heurestic,以确定是否应用功能选择? 是否有任何纸张/作品可以解决这个问题?何时应用特征选择以及何时不应用?

1 个答案:

答案 0 :(得分:0)

有很多启发式方法。我不会知道一篇论文或来源,只需很短的时间就可以解决这些问题。

当你说'表现'我假设您指的是您的模型测试数据集的预测准确性,该模型已经过训练并通过训练数据集和交叉验证数据集进行交叉验证。

还有大量的ML算法,特征选择可能不会对它们产生相同的影响。你在用哪个?

例如,为神经网络应用特征选择将导致影响模型的偏差和方差的变化,这反过来将影响测试集上预测的准确性:

  • 过多的功能可能导致过度拟合(取决于样本训练大小)由于高度的变化
  • 太少,你可能会导致不适合或高偏见(无论样本培训规模如何)

要么会导致测试集的预测受损。而且,当调整时,单独的准确性是不够的。一个模型(计算出特征,度,正则化等等......)要弄清楚你需要注意的最好的是模型的精确度和召回率。 / p>

不幸的是,我没有快速简便的方法可以在简短的回答中详细解答您需要做些什么来优化您的模型。

我建议你花点时间去参加Andrew Ng的机器学习课程https://www.coursera.org/learn/machine-learning/home/welcome。第6章讨论了如何确定如何优化NN模型。