Question

我有这样的数据框

    Customer   Day
0.    A         1
1.    A         1
2.    A         1
3.    A         2
4.    B         3
5.    B         4

，我想从中取样，但我想为每个客户取样不同的大小。我在另一个数据框中有每个客户的人数。例如，

    Customer   Day
0.    A         2
1.    B         1

假设我想每天为每个客户取样。到目前为止，我具有此功能：

def sampling(frame,a): 
    return np.random.choice(frame.Id,size=a) 

grouped = frame.groupby(['Customer','Day'])
sampled = grouped.apply(sampling, a=??).reset_index()

如果我将size参数设置为全局常数，则它不会运行。但是当不同的值位于单独的数据框中时，我不知道如何设置此值。

Answer 1

您可以使用样本大小从df1创建一个映射器，并将该值用作样本大小，

mapper = df1.set_index('Customer')['Day'].to_dict()

df.groupby('Customer', as_index=False).apply(lambda x: x.sample(n = mapper[x.name]))


       Customer Day
0   3   A       2
    2   A       1
1   4   B       3

这将返回多索引，您始终可以reset_index，

df.groupby（'Customer'）。apply（lambda x：x.sample（n = mapper [x.name]））。reset_index（drop = True）

    Customer    Day
0   A           1
1   A           1
2   B           3

每个客户的样品数量不同

1 个答案: