我正在打开一个包含两列和大约10,000行的CSV文件。第一列具有唯一的日期和时间戳(以30分钟为间隔升序,称为“date_time”),第二列具有整数“intnum”。我使用date_time列作为索引,然后使用条件仅对属于特定日期范围的整数求和。所有条件都可以正常工作,除了最后一个条件是基于将这些日期与USFederalHolidayCalendar匹配。
这就是摩擦,索引日期比假日列表日期更复杂(例如'2015-02-16 12:30:00.00000')(例如'2015-02-16',总统日)。因此,当我对假日列表运行'isin'函数时,它找不到与一整天相关的所有整数,因为'2015-02-16 12:30:00.00000'不等于'2015-02- 16',尽管它是同一天。
代码段:
import numpy as np
import pandas as pd
from pandas.tseries.holiday import USFederalHolidayCalendar, get_calendar
newcal = get_calendar('USFederalHolidayCalendar')
holidays = newcal.holidays(start='2010-01-01', end='2016-12-31')
filename = "/Users/Me/Desktop/test.csv"
int_array = pd.read_csv(filename, header=0, parse_dates=['date_time'], index_col='date_time')
intnum_total = int(int_array['intnum'][(int_array.index.month >= 2) &
(int_array.index.month <= 3) & (int_array.index.hour >= 12) &
(int_array.index.isin(holidays) == TRUE)].sum()
print intnum_total
现在,我没有错误,所以语法和功能“正常”工作,但我知道假期匹配不起作用。
有什么想法吗?
提前感谢 - 这是我的第一篇文章,所以希望格式和问题很清楚。
答案 0 :(得分:1)
您是否只能从时间戳中查看日期并查看它是否在您的联邦假期列表中?我不知道为什么你需要你的第二个整数索引列;我认为布尔值应该足够(例如fed_holiday)。
df = pd.DataFrame(pd.date_range(start='2016-1-1', end='2016-12-31', freq='30min', name='ts'))
df['fed_holiday'] = [ts.date() in holidays for ts in df.ts]
>>> df.fed_holiday.sum() / (24 * 2.)
10.0
答案 1 :(得分:1)
以下是一些想法...
假设您有2016年的假期列表:
cal = USFederalHolidayCalendar()
holidays = cal.holidays(start='2016-01-01', end='2016-12-31')
print holidays.size
哪个收益率:
10
因此2016年有10个假期基于USFederalHolidayCalendar
。
您还拥有DateTimeIndex
,我们说的是2015年和2016年:
idx = pd.DatetimeIndex(pd.date_range(start='2015-1-1',
end='2016-12-31', freq='30min'))
print idx.size
显示:
35041
现在,如果我想查看基于idx
的30分钟内有多少假期,我会接受date
的{{1}}部分并将其与DateTimeIndex
进行比较date
的一部分:
holidays
哪会给我:
idx[pd.DatetimeIndex(idx.date).isin(holidays.date)].size
哪个是480
。
这听起来不错吗?
注意当你执行10 holidays * 24 hours * 2 halfhours in an hour
时,你会得到一个足以进行索引的index.isin(other_index)
数组,而且你不需要进行额外的比较{{1 }}