machine-learning - 列车测试拆分后对不平衡数据的欠采样

让我们来看看您的方法：

我使用火车测试拆分获得：X_train，y_train进行训练以及X_test和y_test进行测试。我将X_train和y_train合并为一个数据集，并进行了欠采样。

是的。任何重采样技术都应仅应用在火车上。这将确保测试集能够反映实际情况。在这样的测试集上获得的模型性能将很好地估计您模型的泛化能力。如果对整个数据集执行重新采样，则模型的性能将过于乐观。

欠采样后，我根据F1进行了交叉验证和模型选择

很难理解没有这些代码到底做了什么，但是看来您已经对已经重新采样的火车数据进行了交叉验证。这是错误的，并且应该在交叉验证期间对每个测试折叠进行欠采样。让我们考虑应采用的三折简历：

因此，您应该做的是： 1.在训练和测试中拆分数据。 2.在您的火车上进行简历。仅在测试折叠上应用欠采样。 3.在CV的帮助下选择了模型之后，对训练集进行欠采样并训练分类器。 4.估计未修改测试集的性能。