假设我有一个熊猫数据框df
,它具有以下结构:-
Column 1 Column 2 .... Column 100
Row 1 0.233 0.555 0
Row 2 0.231 0.514 2
..
Row 15000 0.232 0.455 3
Column 100
代表每一行所属的特定类(可以来自0-14
)。每个类别/类别都有与之关联的1000
行。对于每个类别(在Column 100
中用整数表示),我只想随机选择200
个样本,并创建一个新的数据帧df_new
,其新维度为15x200 = 3000 rows
。有什么好办法做到这一点吗?
答案 0 :(得分:3)
每组使用DataFrame.sample
-然后对最后一列进行排序:
np.random.seed(2019)
df = (pd.DataFrame(np.random.randint(15, size=(100000, 100)))
.rename(columns=lambda x: f'Column {x+1}'))
#print (df.head())
N = 200
df1 = df.groupby('Column 100').apply(lambda x:x.sample(N)).reset_index(drop=True)
#print (df1.head())
print (len(df1))
3000