我有以下两个熊猫数据帧df1
和df2
。他们两个都有datetime列:
import pandas as pd
import numpy as np
import random
np.random.seed(0)
rng = pd.date_range('2015-02-24', periods=5, freq='T')
list=[]
for i in range(len(rng)):
r=random.randint(1,100)
if r not in list: list.append(str(r))
df1 = pd.DataFrame({ 'Date': rng, 'Id': list, 'Val1': np.random.randn(len(rng))})
df1.head()
Date Id Val1
2015-02-24 00:00:00 96 -0.968980
2015-02-24 00:01:00 31 0.591243
2015-02-24 00:02:00 58 -0.782776
2015-02-24 00:03:00 81 -0.444233
2015-02-24 00:04:00 73 -0.345186
df2 = pd.DataFrame({ 'Date': rng, 'Id': list, 'Val2': np.random.randn(len(rng))})
df2.head()
然后我要合并它们,如下所示:
df3 = df1[['Id', 'Date']]\
.groupby('Id')\
.agg('max')\
.merge(df2, on=['Id', 'Date'], how='left')
但是我得到了错误:
ValueError:您尝试在datetime64 [ns,UTC]和对象上合并 列。如果要继续,则应使用pd.concat
预期输出:
Date Id Val2
2015-02-24 00:00:00 96 2.965560
2015-02-24 00:01:00 31 5.593345
2015-02-24 00:02:00 58 11.78276
2015-02-24 00:03:00 81 -0.444234
2015-02-24 00:04:00 73 -0.322334
请考虑这是我真实代码的简化复制。在我的真实代码中,我只有merge
操作,但失败,并显示相同的消息。其余代码用于重现所需的数据格式。
答案 0 :(得分:1)
尝试:
df3 = df1[['Id', 'Date']].groupby('Id').agg('max')
然后:
df3 = pd.merge(df3, df2)
产生:
>>> df3
Date Id Val2
0 2015-02-24 00:03:00 12 -0.103219
1 2015-02-24 00:04:00 24 0.410599
2 2015-02-24 00:02:00 32 -0.151357
3 2015-02-24 00:01:00 41 0.950088
4 2015-02-24 00:00:00 46 -0.977278