我目前具有以下标签分布
Lbl
0 10451
1 1481
dtype: int64
如何平衡标签?例如,仅选择1481的0?
将数据框设置为
index | 1 | 2 | 3 | ... | Lbl
谢谢
我得到上面的^^代码
print(table_train[:5])
table_train = table_train.groupby('Lbl').apply(lambda x : x.sample(1481)).reset_index(level=1, drop=True)
print(table_train[:5])
答案 0 :(得分:1)
您可以在sample
之后尝试使用groupby
df.groupby('Label').apply(lambda x : x.sample(1481)).reset_index(level=0,drop=True)