Panda DataFrame.groupby()使用numpy数组的奇怪行为

时间:2016-08-09 11:36:15

标签: python arrays pandas numpy

我有一个非常大的数据框,我不能放在这里不太可能进行演示,但我想知道我的代码使用groupby()方法遇到的问题是否有解释。

因此,让df为数字pandas.DataFrame,其中(11815, 409)为形状。

arr = df.as_matrix().astype(float)

为什么我有这个?

print df.groupby(["col1","col2"]).mean().reset_index().shape
>> (624, 409)

虽然:

print pandas.DataFrame(arr).groupby([df["col1"],df["col2"]]).mean().values().shape
>> (623, 409)

请注意,此问题也会显示["col1","col2","col3"],但不会出现["col2","col3"]"col1""col2""col3"

所以,'col1'有问题,但可能是什么?

请解释一下吗?

0 个答案:

没有答案