Question

我有以下数据集：

import numpy as np
from pandas import DataFrame
import numpy.random as random

random.seed(12)

df = DataFrame (
    {
        "fac1" : ["a","a","a","a","b","b","b","b"] ,
        "val" : random.choice(np.arange(0,20), 8, replace=False)
    }
)
df2 = df.set_index(["fac1"])
df2

我想要的是在每个val群组中按fac1排序，以产生此效果：

我已经梳理了文档，找不到简单明了的方法。我能做的最好的就是以下黑客攻击：

df3 = df2.reset_index()
df4 = df3.sort_values(["fac1","val"],ascending=[True,True],axis=0)
df5 = df4.set_index(["fac1"])
df5
# Produces the picture above

（我意识到上述内容可以从多个inplace选项中受益，只需这样做就可以使中间产品变得清晰。）

我找到this SO post，它使用分组和排序功能。但是，从该帖子改编的以下代码产生了错误的结果：

df2.groupby("fac1",axis=1).apply(lambda x : x.sort_values("val"))

（出于空间考虑，删除了输出）

还有另一种方法可以解决这个问题吗？

更新：解决方案

接受的解决方案是：

df2.sort_values(by='val').sort_index(kind='mergesort')

排序算法必须为mergesort ，必须明确指定，因为它不是默认值。正如the sort_index documentation所指出的那样，“mergesort是唯一的stable算法。”如果您没有为mergesort指定kind，那么这是另一个无法正确排序的示例数据集：

random.seed(12)

len = 32 

df = DataFrame (
    {
        "fac1" : ["a" for i in range(int(len/2))] + ["b" for i in range(int(len/2))] ,
        "val" : random.choice(np.arange(0,100), len, replace=False)
    }
)
df2 = df.set_index(["fac1"])
df2.sort_values(by='val').sort_index()

（省略所有空间考虑的输出）

Answer 1

编辑：我查看了文档，sort_index的默认排序算法是quicksort。这不是一个稳定的＆＃34;算法，因为它不保留＆＃34;排序输出中相等元素的输入顺序＆＃34; （来自维基百科）。但是，sort_index为您提供了选择＆＃34; mergesort＆＃34;的选项，这是一种稳定的排序算法。所以这是我原来的回答，

df2.sort_values(by='val').sort_index()

工作，只是偶然。此代码应该每次都有效，因为它使用稳定的排序算法：

df2.sort_values(by='val').sort_index(kind = 'mergesort')

Pandas按值排序，然后按索引排序

更新：解决方案

1 个答案: