可能是对De-aggregate / reverse-summarise / expand a dataset in R的扩展 我有一个数据框,看起来像:
I_Code Date_1 Date_2
2 14/09/2019 16/08/2019
2 14/09/2019 17/08/2019
2 14/09/2019 19/08/2019
2 14/09/2019 20/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 22/08/2019
2 14/09/2019 23/08/2019
2 14/09/2019 23/08/2019
2 14/09/2019 24/08/2019
2 14/09/2019 27/08/2019
2 14/09/2019 28/08/2019
2 14/09/2019 28/08/2019
2 14/09/2019 29/08/2019
2 14/09/2019 04/09/2019
2 14/09/2019 04/09/2019
2 14/09/2019 04/09/2019
2 14/09/2019 05/09/2019
2 14/09/2019 08/09/2019
2 14/09/2019 10/09/2019
2 14/09/2019 10/09/2019
2 14/09/2019 12/09/2019
I_code可以采用5个值。
我还有另一个数据框,看起来像:
date_2 count
20/09/2019 415
19/09/2019 431
31/08/2019 386
24/09/2019 404
11/08/2019 252
27/09/2019 441
28/09/2019 398
17/09/2019 430
07/09/2019 388
10/09/2019 369
22/08/2019 318
25/09/2019 420
25/08/2019 380
17/08/2019 291
01/09/2019 381
30/08/2019 345
22/09/2019 455
07/09/2019 388
09/08/2019 213
24/09/2019 404
23/08/2019 344
17/08/2019 291
07/09/2019 388
此处的计数表示date_2的频率。
我想根据dataframe2中date_2的频率将dataframe1扩展到20k个条目。
对于数据帧1中的每个date_2,我们有5个I_code关联。我想将它们平均分配到数据框中。
例如:
2019/09/20共有415个计数,那么我们需要有415个(I_code,Date_1,Date_2)条目。 dataframe1中的3个字段可能有多个元组条目。我们需要选择与date_2关联的所有值,然后根据dataframe2中date_2的频率扩展所有条目。
任何人都可以帮忙。