Question

我目前具有以下标签分布

Lbl
0    10451
1     1481
dtype: int64

如何平衡标签？例如，仅选择1481的0？

将数据框设置为

index | 1 | 2 | 3 | ... | Lbl

谢谢

编辑：添加图片以解决答案中讨论的问题：

我得到上面的^^代码

print(table_train[:5])
table_train = table_train.groupby('Lbl').apply(lambda x : x.sample(1481)).reset_index(level=1, drop=True)
print(table_train[:5])

Answer 1

您可以在sample之后尝试使用groupby

df.groupby('Label').apply(lambda x : x.sample(1481)).reset_index(level=0,drop=True)

如何删除熊猫中属于同一组的某些k个条目平衡班？

1 个答案: