为什么pandas.dataframe.groupby在首先分配给变量时会更快?

时间:2017-11-26 16:50:51

标签: python arrays performance pandas optimization

任何人都可以帮助理解为什么以下两种方式,我认为是什么,否则与 pandas.dataframe groupby方法相同的事情,根据iPython的Magic%在不同的时间完成timeit?

%timeit somedf.groupby('someBoolColumn')['someBoolColumn'].count()
484 µs ± 9.52 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%%timeit grp = somedf.groupby('someBoolColumn')
grp['someBoolColumn'].count()
146 µs ± 1.47 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

somedf有7200行和24列。

我找不到,

  1. 为什么首先将对象分配给变量grp的两个衬里是> 3
    时间更快,也没有;

  2. 如果这只是groupby方法或     对熊猫甚至是python更为通用的东西,例如,关于     变量分配。

  3. 非常感谢任何启示,因为这对于我想要处理的许多更大的数据帧有很大的帮助,反复使用许多不同的参数组合。

0 个答案:

没有答案