我有一个312.5MB的csv文件,其中包含从2007年7月27日起的EURUSD 1分钟OHLC数据,但日期都经过调整以适应夏令时,这意味着我会得到重复和差距。
看到它是如此大的文件,默认的日期解析器太慢了,所以我这样做了:
tizo = dateutil.tz.tzfile('/usr/share/zoneinfo/GB')
def date_parse_1min(s):
return datetime(int(s[6:10]),
int(s[3:5]),
int(s[0:2]),
int(s[11:13]),
int(s[14:16]),tzinfo=tizo)
df = read_csv("EURUSD_1m_clean_w_header.csv",index_col=0,parse_dates=True, date_parser=date_parse_1min)
#verify that it's got the tz right:
df.index
Exception AttributeError: "'NoneType' object has no attribute 'toordinal'" in 'pandas.tslib._localize_tso' ignored
Exception AttributeError: "'NoneType' object has no attribute 'toordinal'" in 'pandas.tslib._localize_tso' ignored
<class 'pandas.tseries.index.DatetimeIndex'>
[2003-07-26 23:00:00, ..., 2012-12-15 23:59:00]
Length: 4938660, Freq: None, Timezone: tzfile('/usr/share/zoneinfo/GB')
不知道为什么会出现属性错误。
df.index.get_duplicates()
<class 'pandas.tseries.index.DatetimeIndex'>
[2003-10-26 01:00:00, ..., 2012-10-28 01:59:00]
Length: 600, Freq: None, Timezone: None
df1 = df.tz_convert('GMT')
df1.index.get_duplicates()
<class 'pandas.tseries.index.DatetimeIndex'>
[2003-10-26 01:00:00, ..., 2012-10-28 01:59:00]
Length: 600, Freq: None, Timezone: None
如何让pandas消除夏令时偏移?显然我可以找出需要改变的正确整数索引,并且这样做,但必须有更好的方法。
答案 0 :(得分:0)
如果您获取每年的第一个和最后一个重复值并将数据间隔一个小时,那么这应该是纠正问题的最简单方法。您显然必须考虑到第一个数据点从夏令时开始。