合并数据集时,我希望pandas不会复制连接中列中的值。但是,情况似乎并非如此。
此外,从连接创建的多索引被声明为唯一,但是groupby表明它不是。
这是预期的行为吗?如何绕过它以获得我期望的结果?
见下文:
> pd.__version__
'0.13.1'
> merged_1 = pd.merge(left=A, right=B, how='outer', on=['date','x','y'])
> merged = pd.merge(left=merged_1, right=C, how='outer', on=['date','x','y'])
> merged.index.is_unique
True
> merged.dtypes # NB: same datatypes for corresponding columns in A,B & C
date object
x float64
y object
...
dtype: object
> grp = merged.groupby(['date','x','y'])
> sizes = grp.size()
> sizes.sort(ascending=False)
> sizes[:4]
date x y
31/05/2014 08:26 2010 31/05/2014 2
18/05/2014 07:50 2010 14/06/2014 2
31/05/2014 2
30/05/2014 2
注意:我已尝试在较小的DataFrame上进行测试,以便在此处发布,但是当我这样做时,我似乎无法对其进行重新定位。