熊猫长到宽阔而不失时区意识

时间:2016-09-14 17:40:19

标签: python pandas timezone reshape

我试图将pandas数据帧从长格式转换为宽格式,时间戳会丢失时区。

这是一个可重复的例子:

import pandas as pd
long = pd.DataFrame(dict(
    ind=[1,1,2, 2],
    events=['event1', 'event2', 'event1', 'event2'],
    time=[pd.Timestamp('2015-03-30 00:00:00', tz='UTC'),
         pd.Timestamp('2015-03-30 01:00:00', tz='UTC'),
         pd.Timestamp('2015-03-30 02:00:00', tz='UTC'),
         pd.Timestamp('2015-03-30 03:00:00', tz='UTC')]))

然后,在查看long.time时,我会得到一个时区感知系列。

0   2015-03-30 00:00:00+00:00
1   2015-03-30 01:00:00+00:00
2   2015-03-30 02:00:00+00:00
3   2015-03-30 03:00:00+00:00
Name: time, dtype: datetime64[ns, UTC]

并像这样重塑后

wide = long.set_index(['ind'] + ['events']).unstack(level=1).reset_index()

时区消失了。例如。 wide.time.event1

0   2015-03-30 00:00:00
1   2015-03-30 02:00:00
Name: event1, dtype: datetime64[ns]

还有另一种重塑方式,不会失去时区吗?

1 个答案:

答案 0 :(得分:0)

pandas正在跟踪时区。当您unstack时,必须在numpy失去追踪的情况下进行重塑。

证明了这一点
df = pd.concat([long.time, pd.Series(long.time.values)],
               axis=1, keys=['pandas', 'numpy'])

df

enter image description here

df.dtypes    

pandas    datetime64[ns, UTC]
numpy          datetime64[ns]
dtype: object

解决方法是将每列重铸为您关心的dtype

for c, col in wide.filter(like='time').iteritems():
    wide[c] = col.astype(long.time.dtype)

wide

enter image description here