如何使大熊猫不偷懒?

时间:2019-12-12 05:31:21

标签: python pandas group-by

在本教程中提到,pandas groupby对象是惰性的。

  

它本质上是懒惰的。它实际上并没有做任何操作来产生   有用的结果,直到您这么说。

  

还值得一提的是.groupby()确实完成了部分但并非全部操作,   通过为每个对象构建一个Grouping类实例来完成拆分工作   您传递的密钥。但是,BaseGrouper的许多方法   拥有这些分组的类被称为懒惰而不是    init (),并且许多还使用缓存的属性设计。

所以我进行了一些测试,以确保groupby确实很懒。

让我们

df=pd.DataFrame(np.random.randint(1,10,size=(1000000,4)))

然后

%timeit gg=df.groupby(1)
35.6 µs ± 110 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)

几乎不需要时间。还有

%timeit res=gg.get_group(1)
2.76 ms ± 8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

时间更长,并且比

快一点
%timeit res=df[df[1]==1]
6.87 ms ± 16.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

另一方面,如果我们首先提取组

%timeit gdict=df.groupby(1).groups
15.7 ms ± 35.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

然后,获取组不需要任何时间

%timeit gdict[1]
29.8 ns ± 0.0989 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

所以我的问题是

  1. 为什么熊猫设计groupby为懒惰?在实际应用中,我认为我几乎总是需要对组对象执行许多进一步的操作。如果组对象最初在拆分数据帧时比较懒,那么每次进行诸如get_group等操作时,都会浪费时间。
  2. 我也不理解“ .groupby()通过为您传递的每个键构建一个Grouping类实例来完成部分拆分工作,但不是全部”,这是什么意思?
  3. 是否可以使groupby对象不偷懒?

1 个答案:

答案 0 :(得分:0)

你需要一个更大的基准:

import numpy as np, pandas as pd
df=pd.DataFrame(np.random.randint(1,10,size=(100000000,4))) #3GB data
gg=df.groupby(1)
%time _ = gg.get_group(1) #first call slow
%time _ = gg.get_group(1) #fast
%time _ = gg.get_group(2) #other group lookup is also fast 
%timeit _ = gg.get_group(1) #gives wrong result

Groupby 是懒惰的,因为它不会立即计算 groups。它在向他们提出第一个请求时这样做。或者当你使用 IPython 并在光标下点击带有 gg 的 tab 时。可以看到是否跟踪进程的内存消耗。或者你可以在 IPython 案例中感受一下。

很难猜测引擎盖下发生了什么,但 get_group 似乎有自己的缓存,而 groupssummin 等方法共享一个.可能会尝试最小化不同用例的内存使用量。无论如何,在第一次使用后,懒惰就消失了。

最后的测试是错误的。 gg.groups 包含 indexex,而不是组本身:

%timeit df.loc[gdict[1]]  #It is actually the slowest
1.23 s ± 26.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit df[df[1]==1]
928 ms ± 23.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit gg.get_group(1)
510 ms ± 30.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

从字典中检索项目确实快了数千倍,但是你会用空间换取速度。

如果您绝对确定需要在同一组上多次运行函数,您可以尝试对列上的数据框进行排序并保存组切片。

%time df = df.sort_values(1,ignore_index=True)
#Wall time: 10.3 s
%time ids = df[1].diff().to_numpy().nonzero()[0]
#Wall time: 1.88 s
%time gl = {df[1][v] : slice(v,ids[i+1] if (i+1)<len(ids) else None) for i,v in enumerate(ids)}
#Wall time: 112 µs
%timeit df[gl[1]]
#12.1 µs ± 208 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

对于某些用例,排序数据可能最快。

%timeit {k:df[v].sum() for k,v in gl.items()}
1.16 s ± 42.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit gg.sum()
2.73 s ± 29.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit {x: gg.get_group(x).sum() for x in range(1,10)}
4.23 s ± 61.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)