我正在尝试使用pd.DataFrame.join函数连接两个pandas数据帧,但是当我尝试更改现有索引的日期时间时出现问题。我用过:
import pandas as pd
import pytz
import numpy as np
# Creating date ranges
sim_date = pd.date_range('1980-01-01', '1980-12-31', freq='1H', tz='UTC')
obs_date = pd.date_range('1980-01-01', '1980-12-31', freq='1H')
# Creating DataFrames with the time ranges as indices
sim = pd.DataFrame(np.random.rand(len(interim_date)), index=interim_date, columns=['Sim'])
obs = pd.DataFrame(np.random.rand(len(obs_date)), index=obs_date, columns=['Obs'])
# Changing the timezone of the observed data index
obs.index = obs.index.tz_localize('UTC').tz_convert('America/Phoenix')
# Printing the result of the join
print(pd.DataFrame.join(sim, obs).dropna())
哪个收益率:
Sim Obs
1980-01-01 00:00:00+00:00 0.844345 0.117649
1980-01-01 01:00:00+00:00 0.505349 0.755907
1980-01-01 02:00:00+00:00 0.799555 0.169102
1980-01-01 03:00:00+00:00 0.194750 0.704400
1980-01-01 04:00:00+00:00 0.459079 0.241803
1980-01-01 05:00:00+00:00 0.496936 0.726264
1980-01-01 06:00:00+00:00 0.515039 0.989569
1980-01-01 07:00:00+00:00 0.271105 0.488859
1980-01-01 08:00:00+00:00 0.545269 0.434904
1980-01-01 09:00:00+00:00 0.817365 0.067979
1980-01-01 10:00:00+00:00 0.051024 0.068993
1980-01-01 11:00:00+00:00 0.170346 0.510406
1980-01-01 12:00:00+00:00 0.518609 0.583602
1980-01-01 13:00:00+00:00 0.725753 0.402805
1980-01-01 14:00:00+00:00 0.134059 0.879183
1980-01-01 15:00:00+00:00 0.304070 0.773884
1980-01-01 16:00:00+00:00 0.742448 0.158367
1980-01-01 17:00:00+00:00 0.539499 0.067725
1980-01-01 18:00:00+00:00 0.349432 0.027337
1980-01-01 19:00:00+00:00 0.549015 0.078190
1980-01-01 20:00:00+00:00 0.089871 0.878931
1980-01-01 21:00:00+00:00 0.100849 0.359007
1980-01-01 22:00:00+00:00 0.290280 0.168759
1980-01-01 23:00:00+00:00 0.074420 0.881724
1980-01-02 00:00:00+00:00 0.091413 0.820616
但是当我使用它时:
import pandas as pd
import pytz
import numpy as np
interim_date = pd.date_range('1980-01-01', '1980-01-02', freq='1H', tz='UTC')
obs_date = pd.date_range('1980-01-01', '1980-01-02', freq='1H', tz='America/Phoenix')
sim = pd.DataFrame(np.random.rand(len(interim_date)), index=interim_date, columns=['Sim'])
obs = pd.DataFrame(np.random.rand(len(obs_date)), index=obs_date, columns=['Obs'])
print(pd.DataFrame.join(sim, obs).dropna())
它产生:
Sim Obs
1980-01-01 07:00:00+00:00 0.894766 0.509333
1980-01-01 08:00:00+00:00 0.805764 0.564251
1980-01-01 09:00:00+00:00 0.996807 0.856853
1980-01-01 10:00:00+00:00 0.494817 0.088286
1980-01-01 11:00:00+00:00 0.716468 0.947045
1980-01-01 12:00:00+00:00 0.808407 0.332764
1980-01-01 13:00:00+00:00 0.554688 0.959215
1980-01-01 14:00:00+00:00 0.389542 0.462384
1980-01-01 15:00:00+00:00 0.039566 0.850724
1980-01-01 16:00:00+00:00 0.634998 0.097579
1980-01-01 17:00:00+00:00 0.169957 0.390812
1980-01-01 18:00:00+00:00 0.113913 0.519487
1980-01-01 19:00:00+00:00 0.521354 0.260055
1980-01-01 20:00:00+00:00 0.910717 0.693063
1980-01-01 21:00:00+00:00 0.907878 0.190714
1980-01-01 22:00:00+00:00 0.625534 0.048584
1980-01-01 23:00:00+00:00 0.926966 0.815481
1980-01-02 00:00:00+00:00 0.841386 0.573255
似乎两种方法都应该产生相同的结果,但似乎在第一种情况下,观察到的DataFrame索引不会改变,即使我打印出来它说它改变了......有什么建议吗? / p>
答案 0 :(得分:2)
你的两种施工方法实际上是不同的。例如,查看每个索引的第一个元素:
In [2]: obs_date1 = pd.date_range('1980-01-01', '1980-12-31', freq='1H') \
.tz_localize('UTC') \
.tz_convert('America/Phoenix')
In [3]: obs_date2 = pd.date_range('1980-01-01', '1980-12-31', freq='1H',
tz='America/Phoenix')
In [4]: obs_date1[0]
Out[4]: Timestamp('1979-12-31 17:00:00-0700', tz='America/Phoenix', freq='H')
In [5]: obs_date2[0]
Out[5]: Timestamp('1980-01-01 00:00:00-0700', tz='America/Phoenix', freq='H')
通过执行.tz_localize('UTC')
,您基本上将UTC时区附加到每个时间戳。然后,使用tz_convert('America/Phoenix')
,您将UTC时间戳向后移动七个小时到美国/凤凰城时区。当您对UTC时间戳使用此方法和join
时,此索引将转换回UTC以进行对齐,并且两个索引完全匹配,因此join
中没有任何内容被删除。
我认为你想要的第一个选择就是直接使用tz_localize('America/Phoenix')
:
In [6]: obs_date3 = pd.date_range('1980-01-01', '1980-12-31', freq='1H') \
...: .tz_localize('America/Phoenix')
In [7]: obs_date3[0]
Out[7]: Timestamp('1980-01-01 00:00:00-0700', tz='America/Phoenix', freq='H')