我在着名的Intro to Stat Learning课程中观看这个video关于在特征选择中进行交叉验证。
教授说我们应该在进行任何模型拟合和特征选择之前形成折叠。他们还说,在每次拆分中,我们最终可能会得到一组不同的最佳预测因子"
我的问题是,如果是这种情况,我们如何确定未来使用的总体最佳预测因子。换句话说,如果我有一组新的数据,我怎么知道我应该使用哪些预测变量?
答案 0 :(得分:0)
初学者的好问题。 您的问题的答案是使用相同的功能集以供将来使用。是的,权衡所选的功能可能会随时间而变化。但通常会选择之前选择的功能。 但重要的是,用于特征选择的初始数据应该足够好并且有足够数量的样本,以便它几乎反映了问题的所有情况。 如果这是通常情况下,选择的功能对于新的测试数据也不会有太大变化。