Python Imblearn-如何跟踪原始数据记录

时间:2018-10-03 23:46:43

标签: python id oversampling imblearn

我的数据严重不平衡,所以我在这里使用Python不平衡学习-使数据平衡:https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.combine.SMOTEENN.html#imblearn.combine.SMOTEENN

在进行模型预测之后,我还需要知道正确预测了多少个原始标签,但是现在在数据采样后我很难跟踪原始标签。

因为:

  1. 我每一行的ID是分类数据。采样功能仅接受数值数据。如果将其转换为float,这些ID也可以复制,然后我将不知道哪个是原始ID。
  2. 存在完全相同的行(如果我们忽略行ID),所以我不能简单地使用所有功能来识别行
  3. 我还检查过,在数据采样后,imblearned会在原始数据之间添加样本。因此,我找不到原始行。

在过采样方法之后,是否仍可以跟踪原始数据和标签? Python或R应该都可以。

0 个答案:

没有答案