采取以下数据框架:
x = np.tile(np.arange(3),3)
y = np.repeat(np.arange(3),3)
df = pd.DataFrame({"x": x, "y": y})
x y
0 0 0
1 1 0
2 2 0
3 0 1
4 1 1
5 2 1
6 0 2
7 1 2
8 2 2
我需要先按x
排序,然后按y
排序:
df2 = df.sort(["x", "y"])
x y
0 0 0
3 0 1
6 0 2
1 1 0
4 1 1
7 1 2
2 2 0
5 2 1
8 2 2
如何更改索引以使其再次升序。即我怎么得到这个:
x y
0 0 0
1 0 1
2 0 2
3 1 0
4 1 1
5 1 2
6 2 0
7 2 1
8 2 2
我尝试了以下内容。不幸的是,它根本没有改变索引:
df2.reindex(np.arange(len(df2.index)))
答案 0 :(得分:98)
您可以使用reset_index
重置索引,以获取默认索引0,1,2,...,n-1(并使用drop=True
表示您要删除现有索引,而不是将其作为附加列添加到数据框中):
In [19]: df2 = df2.reset_index(drop=True)
In [20]: df2
Out[20]:
x y
0 0 0
1 0 1
2 0 2
3 1 0
4 1 1
5 1 2
6 2 0
7 2 1
8 2 2
答案 1 :(得分:14)
由于pandas 1.0.0 df.sort_values
具有新的参数ignore_index
,它可以完全满足您的需求:
In [1]: df2 = df.sort_values(by=['x','y'],ignore_index=True)
In [2]: df2
Out[2]:
x y
0 0 0
1 0 1
2 0 2
3 1 0
4 1 1
5 1 2
6 2 0
7 2 1
8 2 2
答案 2 :(得分:4)
df.sort()
已弃用,请使用df.sort_values(...)
:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html
然后通过df.reset_index(drop=True)
答案 3 :(得分:2)
df2.set_index(np.arange(len(df2.index)))
输出:
x y
0 0 0
1 0 1
2 0 2
3 1 0
4 1 1
5 1 2
6 2 0
7 2 1
8 2 2
答案 4 :(得分:0)
以下有效!
如果你想改变现有的数据帧本身,你可以直接使用
df.sort_values(by=['col1'], inplace=True)
df.reset_index(drop=True, inplace=True)
df
>> col1 col2 col3 col4
0 A 2 0 a
1 A 1 1 B
2 B 9 9 c
5 C 4 3 F
4 D 7 2 e
3 NaN 8 4 D
另外,如果您不想更改现有的数据帧,而是想将排序后的数据帧单独存储到另一个变量中,您可以使用:
df_sorted = df.sort_values(by=['col1']).reset_index(drop=True)
df_sorted
>> col1 col2 col3 col4
0 A 2 0 a
1 A 1 1 B
2 B 9 9 c
3 C 4 3 F
4 D 7 2 e
5 NaN 8 4 D
df
>> col1 col2 col3 col4
0 A 2 0 a
1 A 1 1 B
2 B 9 9 c
3 NaN 8 4 D
4 D 7 2 e
5 C 4 3 F