我的数据框使用长度为162430。数据框是这样的。
start_region_hash Time gap
1 146 9
1 163 7
1 162 10
1 144 5
........
66 14 0
66 17 0
66 11 0
我想添加更多长度为4800的列。 162430。
Date Time Weather Temprature PM2.5
2016-01-01 00:00:28 1 4.0 177
2016-01-01 00:05:24 1 3.0 177
2016-01-01 00:10:08 1 3.0 177
.......
2016-01-21 23:45:44 2 1.0 59
2016-01-21 23:50:31 2 1.0 59
2016-01-21 23:55:26 2 1.0 59
现在我要做的是通过在以后添加更多行来匹配新列和原始数据的长度。 我知道这很困难。我希望总长度为162430。新数据应添加随机性,但以概率为基础。我正在从以数据命名的文件中读取此数据。例如,2016年1月1日有278行,而2016年1月21日有40行。新行的总概率应取自len(2016-01-21)。
例如,现在在生成新行时,2016-01-21的概率为2%,因为它具有最少的行,它将贡献的总行数为100。现在在生成这100行时,概率应基于现有数据行。