二进制分类中的交叉验证和特征选择

时间:2020-10-15 07:06:07

标签: python scikit-learn cross-validation feature-selection

这是一个理论上的问题,因为我认为我对交叉验证的实际作用尚不明确。 我正在解决二进制分类问题。我有n个要素,我想从n个要素要素中选择一个子集,以获取roc_auc_score的最大值。 我有15个功能,并且提供了详尽的搜索功能,因此可以找到最佳的解决方案。 问题-我需要在这里进行交叉验证吗?因为我已经找到全局最大值,所以它没有用吗? 交叉验证是否仅在超参数设置中有所帮助,并且通过在火车组的不同参数处多次拟合模型来避免过拟合?

1 个答案:

答案 0 :(得分:1)

您正在为我们提供解决方案,并正在寻找解决问题的方法。接下来您到底想做什么?

  • 训练您的模特吗?使用完整的训练数据集即可做到。
  • 找到适合您问题的最佳超参数?对具有不同超参数集的训练数据集进行交叉验证。
  • 找出您的模型是否过拟合?在训练数据集上进行训练,在测试或验证数据集上进行测试。这些数据集不应有任何重叠。您可以使用SetIPAndPort