如何根据特定条件从Pandas数据框中随机选择行?

时间:2019-06-07 10:06:51

标签: python pandas dataframe random

假设我有一个熊猫数据框df,它具有以下结构:-

         Column 1      Column 2 ....     Column 100
Row 1    0.233           0.555              0
Row 2    0.231           0.514              2
..
Row 15000    0.232           0.455          3

Column 100代表每一行所属的特定类(可以来自0-14)。每个类别/类别都有与之关联的1000行。对于每个类别(在Column 100中用整数表示),我只想随机选择200个样本,并创建一个新的数据帧df_new,其新维度为15x200 = 3000 rows 。有什么好办法做到这一点吗?

1 个答案:

答案 0 :(得分:3)

每组使用DataFrame.sample-然后对最后一列进行排序:

np.random.seed(2019)
df = (pd.DataFrame(np.random.randint(15, size=(100000, 100)))
         .rename(columns=lambda x: f'Column {x+1}'))
#print (df.head())


N = 200
df1 = df.groupby('Column 100').apply(lambda x:x.sample(N)).reset_index(drop=True)
#print (df1.head())

print (len(df1))
3000