熊猫DataFrame中的假日日历

时间:2017-08-12 20:07:27

标签: python pandas datetime dataframe calendar

我为德国创建了一个假日日历(不包括所有日期),如下所示:

from pandas.tseries.holiday import Holiday,AbstractHolidayCalendar

class GermanHolidays(AbstractHolidayCalendar):
    rules = [Holiday('New Years Day', month=1, day=1),
             Holiday('First of May', month=5, day=1),
             Holiday('German Unity Day', month=10,day=3),
            ...]

cal = GermanHolidays()

现在我希望在假日出现或不出现(“1”或“0”)时显示一列。所以我做了以下事情:

holidays = cal.holidays(start=X['Time (CET)'].min(), end = X['Time (CET)'].max())
X['Holidays'] = X['Time (CET)'].isin(holidays)
X['Holidays'] = X['Holidays'].astype(float)

X是一个数据框,其中Time (CET)%d.%m.%Y %H:%M:%S格式的列。不幸的是,这不起作用。没有引发错误,但所有列都标有"0"。所以没有匹配发生,我真的不知道为什么。 我认为这可能是因为假期的频率是每天而不是每小时,因为它在Time (CET)列中。 如果你可以帮助我会很棒!谢谢!

2 个答案:

答案 0 :(得分:2)

可能有几个原因。

其中一人as mentioned by @unutbu - is a wrong (string) dtype。确保您的X['Time (CET)']列属于datetime dtype。这可以按如下方式完成:

X['Time (CET)'] = pd.to_datetime(X['Time (CET)'], dayfirst=True, errors='coerce')

你说的另一个原因是时间部分。

这是一个演示:

In [28]: df = pd.DataFrame({'Date':pd.date_range('2017-01-01 01:01:01', 
                                                 freq='9H', periods=1000)})

产量:

In [30]: df
Out[30]:
                   Date
0   2017-01-01 01:01:01
1   2017-01-01 10:01:01
2   2017-01-01 19:01:01
3   2017-01-02 04:01:01
4   2017-01-02 13:01:01
5   2017-01-02 22:01:01
6   2017-01-03 07:01:01
7   2017-01-03 16:01:01
8   2017-01-04 01:01:01
9   2017-01-04 10:01:01
..                  ...
990 2018-01-07 07:01:01
991 2018-01-07 16:01:01
992 2018-01-08 01:01:01
993 2018-01-08 10:01:01
994 2018-01-08 19:01:01
995 2018-01-09 04:01:01
996 2018-01-09 13:01:01
997 2018-01-09 22:01:01
998 2018-01-10 07:01:01
999 2018-01-10 16:01:01

[1000 rows x 1 columns]

holidays过滤因为时间不匹配而无法正常工作:

In [29]: df.loc[df.Date.isin(holidays)]
Out[29]:
Empty DataFrame
Columns: [Date]
Index: []

我们可以通过规范化(截断时间部分或将时间设置为00:00:00)我们的日期时间列来使其工作:

In [31]: df.loc[df.Date.dt.normalize().isin(holidays)]
Out[31]:
                   Date
0   2017-01-01 01:01:01
1   2017-01-01 10:01:01
2   2017-01-01 19:01:01
320 2017-05-01 01:01:01
321 2017-05-01 10:01:01
322 2017-05-01 19:01:01
734 2017-10-03 07:01:01
735 2017-10-03 16:01:01

答案 1 :(得分:1)

这基本上就是你已经拥有的。鉴于这种方法有效而你的方法没有,可能是因为值是文本而不是时间戳,如@unutbu和@MaxU所述。

此外,您的帖子指出:

  

在假期出现时显示(“1”或“0”)

你真的想要一个文本值吗?你试图转换为浮点数,但你可能只想要整数。

Activity