根据频率扩展数据集

时间:2019-10-23 06:07:52

标签: python r pandas numpy

可能是对De-aggregate / reverse-summarise / expand a dataset in R的扩展 我有一个数据框,看起来像:

I_Code  Date_1  Date_2
2   14/09/2019  16/08/2019
2   14/09/2019  17/08/2019
2   14/09/2019  19/08/2019
2   14/09/2019  20/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  22/08/2019
2   14/09/2019  23/08/2019
2   14/09/2019  23/08/2019
2   14/09/2019  24/08/2019
2   14/09/2019  27/08/2019
2   14/09/2019  28/08/2019
2   14/09/2019  28/08/2019
2   14/09/2019  29/08/2019
2   14/09/2019  04/09/2019
2   14/09/2019  04/09/2019
2   14/09/2019  04/09/2019
2   14/09/2019  05/09/2019
2   14/09/2019  08/09/2019
2   14/09/2019  10/09/2019
2   14/09/2019  10/09/2019
2   14/09/2019  12/09/2019

I_code可以采用5个值。

我还有另一个数据框,看起来像:

date_2  count
20/09/2019  415
19/09/2019  431
31/08/2019  386
24/09/2019  404
11/08/2019  252
27/09/2019  441
28/09/2019  398
17/09/2019  430
07/09/2019  388
10/09/2019  369
22/08/2019  318
25/09/2019  420
25/08/2019  380
17/08/2019  291
01/09/2019  381
30/08/2019  345
22/09/2019  455
07/09/2019  388
09/08/2019  213
24/09/2019  404
23/08/2019  344
17/08/2019  291
07/09/2019  388

此处的计数表示date_2的频率。

我想根据dataframe2中date_2的频率将dataframe1扩展到20k个条目。

对于数据帧1中的每个date_2,我们有5个I_code关联。我想将它们平均分配到数据框中。

例如:

2019/09/20共有415个计数,那么我们需要有415个(I_code,Date_1,Date_2)条目。 dataframe1中的3个字段可能有多个元组条目。我们需要选择与date_2关联的所有值,然后根据dataframe2中date_2的频率扩展所有条目。

任何人都可以帮忙。

0 个答案:

没有答案