我正在研究如何基于列值获取Pandas DataFrame
中的标签索引。我有以下DataFrame
:
d = {'col1': ['label1', 'label2', 'label3'],
'col2': ['label2', 'label3', 'label1'],
'col3': ['label2', 'label1', 'label3'],
'col4': ['label3', 'label1', 'label2']}
df = pd.DataFrame(data = d)
其格式为:
col1 col2 col3 col4
0 label1 label2 label2 label3
1 label2 label3 label1 label1
2 label3 label1 label3 label2
我正在尝试将其更改为以下格式:
label1 label2 label3
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0
这告诉原始DataFrame df
中相应列中每个标签的索引。例如,在col3
中,标签1-3的索引分别为1、0和2。
答案 0 :(得分:5)
res = pd.DataFrame(df.T.values.argsort(1),
columns=np.sort(df.iloc[:, 0].values),
index=df.columns)
print(res)
label1 label2 label3
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0
答案 1 :(得分:3)
将stack
与reset_index
和pivot
结合使用:
df1 = df.stack().reset_index(name='v').pivot('level_1','v','level_0')
print (df1)
v label1 label2 label3
level_1
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0
或者将reset_index
和melt
与pivot
:
df1 = df.reset_index().melt('index').pivot('variable','value','index')
print (df1)
value label1 label2 label3
variable
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0
最后一步是删除索引和列名称:
df1.index.name = None
df1.columns.name = None
print (df1)
label1 label2 label3
col1 0 1 2
col2 2 0 1
col3 1 0 2
col4 1 2 0