如何选择具有特定id的元素的随机样本

时间:2015-11-11 21:35:36

标签: python pandas

我正在尝试从包含评论ID和业务ID的数据框中为每个业务选择5个评论ID。我认为它将迭代groupby对象,但这不起作用。

df_b = df.groupby('business_id')
selected = random.sample(df_b,5).review_ids

1 个答案:

答案 0 :(得分:0)

不确定DataFrameGroupBy对象是否是您想要的。我认为你最好每个id使用DataFrame.sample()

frames = list()
for buisness_id in df['business_id'].unique():
    frame = df[df['business_id'] == business_id].sample(5)
    frames.append(frame)

df = pd.concat(frames)