应用错误收集

交叉验证是分类中的特征选择

时间：2016-11-17 05:39:43

标签： machine-learning cross-validation feature-selection

我在着名的Intro to Stat Learning课程中观看这个video关于在特征选择中进行交叉验证。

教授说我们应该在进行任何模型拟合和特征选择之前形成折叠。他们还说，在每次拆分中，我们最终可能会得到一组不同的最佳预测因子＆＃34;

我的问题是，如果是这种情况，我们如何确定未来使用的总体最佳预测因子。换句话说，如果我有一组新的数据，我怎么知道我应该使用哪些预测变量？

1 个答案:

答案 0 :(得分：0)

初学者的好问题。您的问题的答案是使用相同的功能集以供将来使用。是的，权衡所选的功能可能会随时间而变化。但通常会选择之前选择的功能。 但重要的是，用于特征选择的初始数据应该足够好并且有足够数量的样本，以便它几乎反映了问题的所有情况。 如果这是通常情况下，选择的功能对于新的测试数据也不会有太大变化。