如何在熊猫中获得一年中的“红衣主教”日?

时间:2016-01-21 18:29:39

标签: python python-2.7 date pandas dataframe

我的df看起来像这样,其中'O'是一年中的序数日期。

            Close   O
Date        
1950-01-03  16.66   3
1950-01-04  16.85   4
1950-01-05  16.93   5
1950-01-06  16.98   6
1950-01-09  17.08   9
1950-01-10  17.03   10
1950-01-11  17.09   11
1950-01-12  16.76   12
1950-01-13  16.67   13
1950-01-16  16.71   16

我希望在给定数据集的情况下获得一年中的基数日。期望的结果是:

            Close   O  C  
Date        
1950-01-03  16.66   3  1   
1950-01-04  16.85   4  2
1950-01-05  16.93   5  3
1950-01-06  16.98   6  4
1950-01-09  17.08   9  5
1950-01-10  17.03   10 6
1950-01-11  17.09   11 7
1950-01-12  16.76   12 8
1950-01-13  16.67   13 9
1950-01-16  16.71   16 10

注意:数据集的使用年限很长,因此关键是每次索引中都有新的一年时计数会重新开始。

由于

1 个答案:

答案 0 :(得分:2)

要创建一个每年重置的运行计数列,您可以使用groupby / cumcount:

df['C'] = df.groupby(df.index.year).cumcount(1)+1

例如,

df = pd.DataFrame({
    'Close': [16.66, 16.85, 16.93, 16.98, 17.08, 17.03, 17.09, 16.76, 16.67, 16.71, 20],
    'Date': ['1950-01-03', '1950-01-04', '1950-01-05', '1950-01-06', '1950-01-09', 
             '1950-01-10', '1950-01-11', '1950-01-12', '1950-01-13', '1950-01-16',
             '1951-01-01'], })
df['Date'] = pd.to_datetime(df['Date'])
df = df.set_index('Date')

df['O'] = df.index.day
df['C'] = df.groupby(df.index.year).cumcount(1)+1

产量

            Close   O   C
Date                     
1950-01-03  16.66   3   1
1950-01-04  16.85   4   2
1950-01-05  16.93   5   3
1950-01-06  16.98   6   4
1950-01-09  17.08   9   5
1950-01-10  17.03  10   6
1950-01-11  17.09  11   7
1950-01-12  16.76  12   8
1950-01-13  16.67  13   9
1950-01-16  16.71  16  10
1951-01-01  20.00   1   1