如何根据熊猫中的日期填写数据

时间:2019-10-16 12:23:52

标签: python pandas

根据日期,缺少一些数据,例如,在下面的示例中,10月仅存在3天的数据,但是我希望每天都有记录。

import pandas as pd

df = pd.DataFrame({'date':['2019-10-1','2019-10-2','2019-10-31'], 'times':[4,6,3]})
print(df)

Output:

         date  times
0   2019-10-1      4
1   2019-10-2      6
2  2019-10-31      3

Expected:

         date  times
0   2019-10-1      4
1   2019-10-2      6
2   2019-10-3      0
3   2019-10-4      0
    ...
30  2019-10-31     3

那么如何添加这些中间样本?

2 个答案:

答案 0 :(得分:3)

首先创建DatetimeIndex,然后使用DataFrame.asfreq创建遗漏的日期时间:

df['date'] = pd.to_datetime(df['date'])
df = df.set_index('date').asfreq('d', fill_value=0).reset_index()
print (df)
         date  times
0  2019-10-01      4
1  2019-10-02      6
2  2019-10-03      0
3  2019-10-04      0
4  2019-10-05      0
5  2019-10-06      0
...
...
20 2019-10-21      0
21 2019-10-22      0
22 2019-10-23      0
23 2019-10-24      0
24 2019-10-25      0
25 2019-10-26      0
26 2019-10-27      0
27 2019-10-28      0
28 2019-10-29      0
29 2019-10-30      0
30 2019-10-31      3

答案 1 :(得分:1)

您也可以使用pd.date_range

df['date']=pd.to_datetime(df['date'])
dates=pd.date_range(df['date'].min(),df['date'].max())
df.set_index(df['date'])['times'].reindex(index=dates).fillna(0).reset_index()

        index  times
0  2019-10-01    4.0
1  2019-10-02    6.0
2  2019-10-03    0.0
3  2019-10-04    0.0
4  2019-10-05    0.0
5  2019-10-06    0.0
6  2019-10-07    0.0
7  2019-10-08    0.0
8  2019-10-09    0.0
9  2019-10-10    0.0
10 2019-10-11    0.0
11 2019-10-12    0.0
12 2019-10-13    0.0
13 2019-10-14    0.0
14 2019-10-15    0.0
15 2019-10-16    0.0
16 2019-10-17    0.0
17 2019-10-18    0.0
18 2019-10-19    0.0
19 2019-10-20    0.0
20 2019-10-21    0.0
21 2019-10-22    0.0
22 2019-10-23    0.0
23 2019-10-24    0.0
24 2019-10-25    0.0
25 2019-10-26    0.0
26 2019-10-27    0.0
27 2019-10-28    0.0
28 2019-10-29    0.0
29 2019-10-30    0.0
30 2019-10-31    3.0