从多列获取Pandas DataFrame标签索引

时间:2019-02-01 10:11:22

标签: python pandas dataframe

我正在研究如何基于列值获取Pandas DataFrame中的标签索引。我有以下DataFrame

d = {'col1': ['label1', 'label2', 'label3'], 
     'col2': ['label2', 'label3', 'label1'], 
     'col3': ['label2', 'label1', 'label3'],
     'col4': ['label3', 'label1', 'label2']}

df = pd.DataFrame(data = d)

其格式为:

     col1    col2    col3    col4
0  label1  label2  label2  label3
1  label2  label3  label1  label1
2  label3  label1  label3  label2

我正在尝试将其更改为以下格式:

       label1 label2 label3
col1      0      1      2
col2      2      0      1
col3      1      0      2
col4      1      2      0

这告诉原始DataFrame df中相应列中每个标签的索引。例如,在col3中,标签1-3的索引分别为1、0和2。

2 个答案:

答案 0 :(得分:5)

您可以先transpose,然后再argsort

res = pd.DataFrame(df.T.values.argsort(1),
                   columns=np.sort(df.iloc[:, 0].values),
                   index=df.columns)

print(res)

      label1  label2  label3
col1       0       1       2
col2       2       0       1
col3       1       0       2
col4       1       2       0

答案 1 :(得分:3)

stackreset_indexpivot结合使用:

df1 = df.stack().reset_index(name='v').pivot('level_1','v','level_0')
print (df1)
  v        label1  label2  label3
level_1                        
col1          0       1       2
col2          2       0       1
col3          1       0       2
col4          1       2       0  

或者将reset_indexmeltpivot

df1 = df.reset_index().melt('index').pivot('variable','value','index')
print (df1)
 value     label1  label2  label3
variable                        
col1           0       1       2
col2           2       0       1
col3           1       0       2
col4           1       2       0

最后一步是删除索引和列名称:

df1.index.name = None
df1.columns.name = None
print (df1)
      label1  label2  label3
col1       0       1       2
col2       2       0       1
col3       1       0       2
col4       1       2       0