Question

我正在尝试从包含评论ID和业务ID的数据框中为每个业务选择5个评论ID。我认为它将迭代groupby对象，但这不起作用。

df_b = df.groupby('business_id')
selected = random.sample(df_b,5).review_ids

Answer 1

不确定DataFrameGroupBy对象是否是您想要的。我认为你最好每个id使用DataFrame.sample()。

frames = list()
for buisness_id in df['business_id'].unique():
    frame = df[df['business_id'] == business_id].sample(5)
    frames.append(frame)

df = pd.concat(frames)

如何选择具有特定id的元素的随机样本

1 个答案: