熊猫情节函数忽略时间序列的时区

时间:2012-10-23 12:27:12

标签: python pandas

当使用pandas的内置绘图功能绘制时间序列时,它似乎忽略了我的索引的时区:它始终使用x轴的UTC时间。一个例子:

import numpy as np
import matplotlib.pyplot as plt
from pandas import rolling_mean, DataFrame, date_range

rng = date_range('1/1/2011', periods=200, freq='S', tz="UTC")
data = DataFrame(np.random.randn(len(rng), 3), index=rng, columns=['A', 'B', 'C'])
data_cet = data.tz_convert("CET")

# plot with data in UTC timezone
fig, ax = plt.subplots()
data[["A", "B"]].plot(ax=ax, grid=True)
plt.show()

# plot with data in CET timezone, but the x-axis remains the same as above
fig, ax = plt.subplots()
data_cet[["A", "B"]].plot(ax=ax, grid=True)
plt.show()

虽然索引有:

,但情节不会改变
In [11]: data.index[0]
Out[11]: <Timestamp: 2011-01-01 00:00:00+0000 UTC, tz=UTC>
In [12]: data_cet.index[0]
Out[12]: <Timestamp: 2011-01-01 01:00:00+0100 CET, tz=CET>

我应该提交错误,还是错过了什么?

3 个答案:

答案 0 :(得分:5)

这绝对是个错误。我已经在github上创建了一份报告。原因是因为在内部,pandas将常规频率DatetimeIndex转换为PeriodIndex以挂接到pandas中的格式化程序/定位符,并且当前PeriodIndex不保留时区信息。 请继续关注修复。

答案 1 :(得分:0)

如何处理UTC到本地时间转换

import time
import matplotlib.dates
…
tz = pytz.timezone(time.tzname[0])
…
ax.xaxis.set_major_locator(matplotlib.dates.HourLocator(interval=1, tz=tz))
ax.xaxis.set_major_formatter(matplotlib.dates.DateFormatter('%H', tz=tz))

答案 2 :(得分:0)

from pytz import timezone as ptz
import matplotlib as mpl
...
data.index = pd.to_datetime(data.index, utc=True).tz_localize(tz=ptz('<your timezone>'))
...
mpl.rcParams['timezone'] = data.index.tz.zone

...之后,matplotlib打印为该区域而不是UTC。

但是!请注意,如果您需要注释,则注释的x位置仍将需要使用UTC,即使将传递给data.loc []或data.at []的字符串视为在设置的时区中,也是

例如,我需要显示一系列带有时间戳的垂直线: (这是在大多数绘图调用之后进行的,请注意,sels中的时间戳字符串为UTC)

sels = ['2019-03-21 3:56:28',
         '2019-03-21 4:00:30',
         '2019-03-21 4:05:55',
         '2019-03-21 4:13:40']
ax.vlines(sels,125,145,lw=1,color='grey') # 125 was bottom, 145 was top in data units
for s in sels:
    tstr = pd.to_datetime(s, utc=True)\
    .astimezone(tz=ptz(data.index.tz.zone))\
    .isoformat().split('T')[1].split('+')[0]
    ax.annotate(tstr,xy=(s,125),xycoords='data',
              xytext=(0,5), textcoords='offset points', rotation=90,
              horizontalalignment='right', verticalalignment='bottom')

这会将灰色垂直线置于在sels中手动选择的时间,并以当地时区的小时,分​​钟和秒标记它们。 (.split()[]业务会丢弃.isoformat()字符串中的日期和时区信息。)

但是当我需要使用s中的相同sels从数据中实际获取相应的值时,则不得不使用有些笨拙的方法:

data.tz_convert('UTC').at[s]

data.at[s]

由于{pandas解释KeyError处于s时区,因此data.index.tz失败,并且这样解释,时间戳不在data的内容范围内