在月初开始增量列

时间:2015-03-02 19:42:22

标签: python datetime pandas counter timedelta

提前感谢您的帮助。

每当月份发生变化时,都希望将“计数器”设置为1,然后再增加1直到月份再次变化,然后重复。像这样:

                     A          Month Counter
        2015-10-30  -1.478066   10    21
        2015-10-31  -1.562437   10    22
        2015-11-01  -0.292285   11    1
        2015-11-02  -1.581140   11    2
        2015-11-03  0.603113    11    3
        2015-11-04  -0.543563   11    4

In [1]: import pandas as pd
          import numpy as np

In [2]: dates = pd.date_range('20151030',periods=6)

In [3]: df =pd.DataFrame(np.random.randn(6,1),index=dates,columns=list('A'))

In [4]: df
Out[4]:             A
        2015-10-30  -1.478066
        2015-10-31  -1.562437
        2015-11-01  -0.292285
        2015-11-02  -1.581140
        2015-11-03  0.603113
        2015-11-04  -0.543563

试过这个,将实际月份整数加1:

In [5]: df['Month'] = df.index.month

In [6]: df['Counter'] df['Counter']=np.where(df['Month'] <> df['Month'], (1), (df['Month'].shift()+1))

In [7]: df
Out[7]:  A                     Month Counter
        2015-10-30  -1.478066   10  NaN
        2015-10-31  -1.562437   10  11
        2015-11-01  -0.292285   11  11
        2015-11-02  -1.581140   11  12
        2015-11-03  0.603113    11  12
        2015-11-04  -0.543563   11  12

尝试日期时间,越来越近了:

In[8]:  from datetime import timedelta

In[9]:  df['Counter'] = df.index + timedelta(days=1)
Out[9]:     A                      Month    Counter
            2015-10-30  -0.478066   11  2015-10-31
            2015-10-31  -1.562437   10  2015-11-01
            2015-11-01  -0.292285   11  2015-11-02
            2015-11-02  -1.581140   11  2015-11-03
            2015-11-03  0.603113    11  2015-11-04
            2015-11-04  -0.543563   11  2015-11-05

后期给我约会,但不是我的柜台。新的python,所以任何帮助都表示赞赏。谢谢!

编辑,将df扩展到句点= 300以包含超过12个月的数据:

In[10]: dates = pd.date_range('19971002',periods=300)
In[11]: df=pd.DataFrame(np.random.randn(300,1),index=dates,columns=list('A'))
In[12]: df['Counter'] = df.groupby(df.index.month).cumcount()+1
In[13]: df.head()
Out[13]             A          Counter
        1997-09-29  -0.875468   20
        1997-09-30   1.498145   21
        1997-10-02   0.141262   1
        1997-10-03   0.581974   2
        1997-10-04   0.581974   3

In[14]: df[250:]
Out[14]             A          Counter
        1998-09-29  -0.875468   20
        1998-09-30   1.498145   21
        1998-10-01   0.141262   24
        1998-10-02   0.581974   25

期望的结果:

Out[13]             A          Counter
        1997-09-29  -0.875468   20
        1997-09-30   1.498145   21
        1997-10-02   0.141262   1
        1997-10-03   0.581974   2
        1997-10-04   0.581974   3

代码工作正常(上面的[13]),似乎是一旦数据超过12个月计数器继续递增+1而不是设置回1([Out 14]以上。此外,在这里变得棘手,随机日期发电机包括周末,我的数据只有工作日数据。希望能帮助我帮助你更好。谢谢!

1 个答案:

答案 0 :(得分:3)

您可以使用groupby/cumcount为每个组分配累积计数:

import pandas as pd
import numpy as np

N = 300
dates = pd.date_range('19971002', periods=N, freq='B')
df = pd.DataFrame(np.random.randn(N, 1),index=dates,columns=list('A'))
df['Counter'] = df.groupby([df.index.year, df.index.month]).cumcount()+1
print(df.loc['1998-09-25':'1998-10-05'])

产量

                   A  Counter
1998-09-25 -0.511721       19
1998-09-28  1.912757       20
1998-09-29 -0.988309       21
1998-09-30  1.277888       22
1998-10-01 -0.579450        1
1998-10-02 -2.486014        2
1998-10-05  0.728789        3