对于数据不平衡的二进制文本分类问题,我使用imbalanced-learn库的函数RandomOverSampler
来平衡类。
现在,我只想从原始数据中检索被过度采样(复制)的实例。例如,如果“ item_1”是原始数据,而项目2至4是“ item_1”的副本,则我仅需要“ item_2”,“ item_3”,“ item_4”的索引进行进一步处理,而忽略了“ item_1”。
这是我的代码:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42)
X_listed = []
for eachTrainInstance in X_train:
X_listed.append([eachTrainInstance])
X_tr_resampled, y_tr_resampled = ros.fit_sample(X_listed, y_train)
答案 0 :(得分:0)
似乎所有过采样的实例(当然还有它们相应的索引)都在经受过采样的原始数据的末尾串联在一起。
oversampled_instances = y_tr_resampled[len(y_train):]