如何在大数据帧中对组内的行进行排序

时间:2016-12-23 18:26:00

标签: python pandas numpy

我有一个相对较大的数据框(1.5 Gb),我希望按customMessage2对行进行分组,并按行ID按行在每个组中按升序排序。

VAL

这是预期的结果:

df =

ID   VAL  COL
1A   2    BB
1A   1    AA
2B   2    CC
3C   3    SS
3C   1    YY
3C   2    XX 

这是我尝试过的,但它运行的时间很长。有没有更快的解决方案?:

df =

ID   VAL  COL
1A   1    AA
1A   2    BB
2B   2    CC
3C   1    YY
3C   2    XX
3C   3    SS

2 个答案:

答案 0 :(得分:3)

如果你有一个很大的df并且速度很重要,请尝试一点numpy

# note order of VAL first, then ID is intentional
# np.lexsort sorts by right most column first
df.iloc[np.lexsort((df.VAL.values, df.ID.values))]

   ID  VAL COL
1  1A    1  AA
0  1A    2  BB
2  2B    2  CC
4  3C    1  YY
5  3C    2  XX
3  3C    3  SS

超级充电

v = df.values
i, j = np.searchsorted(df.columns.values, ['VAL', 'ID'])
s = np.lexsort((v[:, i], v[:, j]))
pd.DataFrame(v[s], df.index[s], df.columns)

时间

enter image description here

答案 1 :(得分:2)

sort_values上的

'ID', 'VAL'应该会给你

In [39]: df.sort_values(by=['ID', 'VAL'])
Out[39]:
   ID  VAL COL
1  1A    1  AA
0  1A    2  BB
2  2B    2  CC
4  3C    1  YY
5  3C    2  XX
3  3C    3  SS

为您的用例计算时间

In [89]: dff.shape
Out[89]: (12000, 3)

In [90]: %timeit dff.sort_values(by=['ID', 'VAL'])
100 loops, best of 3: 2.62 ms per loop

In [91]: %timeit dff.iloc[np.lexsort((dff.VAL.values, dff.ID.values))]
100 loops, best of 3: 8.8 ms per loop