Ginput给datetimeindex指定了错误的日期

时间:2012-12-12 04:44:04

标签: python matplotlib pandas

我读入一个文件并用pandas DataFrame绘制它。索引是DatetimeIndex,然后我使用ginput(1)方法获得一个点,但是我得到的坐标是错误的。

代码如下:

import pandas as pd
from matplotlib.dates import num2date, date2num
ts = pd.date_range('2012-04-12,16:13:09', '2012-04-14,00:13:09', freq='H')
df = pd.DataFrame(index=ts)
df[0] = 20.6

然后我使用ginput绘制并点击图表:

df.plot()
t = pylab.ginput(n=1) #click somewhere near 13-APR-2012

但是,第一项似乎是浮动

In [8]: x = t[0][0] # ~ 370631.67741935479

In [9]: num2date(x)
Out[9]: datetime.datetime(1015, 10, 3, 16, 15, 29, 32253, tzinfo=<matplotlib.dates._UTC object at 0x104196550>)
# this is way out!

文档建议它应该使用这些浮点数(来自datetonum):

In [10]: dt = pd.to_datetime('13-4-2012', dayfirst=True)

In [11]: date2num(dt)
Out[11]: 734606.0

这个浮点数是什么,如何将其转换为日期时间?

注意:如果我从数据框中删除其中一行,则此操作正常:

df1 = df.drop(ts[1], axis=0)
...

1 个答案:

答案 0 :(得分:2)

对于以常规频率索引的数据,pandas会将基础索引转换为PeriodIndex,以便在放大和缩小时自动更新x-tick标签的分辨率。所以你得到的序数是句号序数。

要将其转换回日期时间,您可以执行以下操作:

In [36]: pd.Period(ordinal=int(t[0][0]), freq='H')
Out[36]: Period('2012-04-12 18:00', 'H')

In [37]: pd.Period(ordinal=int(t[0][0]), freq='H').to_timestamp()
Out[37]: <Timestamp: 2012-04-12 18:00:00>

* Timestamp是datetime的子类,保持纳秒

话虽如此,理想情况下,只要我有足够的时间重构所有绘图代码,我们就会隐藏用户的转换(或者根本不需要进行转换!)。