Python-按列保留第一个唯一值

时间:2018-09-06 17:29:02

标签: python pandas numpy

我有一个具有多个列的数据框,这些列表示是否存在某些内容,但是它们本质上是有序的。可能在所有3个类别中都存在某种东西,但是我只想指出它存在的最高级别。

所以对于给定的行,我只想要一个'1'值,但我希望将其保持在找到该值的最高级别。

对于此行: 1,1,0,我希望将行更改为1,0,0

和这一行: 0,1,1,我希望将行更改为0,1,0

以下是数据外观和预期输出的示例:

import pandas as pd

#input data
df = pd.DataFrame({'id':[1,2,3,4,5],
                   'level1':[0,0,0,0,1],
                   'level2':[1,0,1,0,1],
                   'level3':[0,1,1,1,0]})

#expected output:
new_df = pd.DataFrame({'id':[1,2,3,4,5],
                   'level1':[0,0,0,0,1],
                   'level2':[1,0,1,0,0],
                   'level3':[0,1,0,1,0]})

4 个答案:

答案 0 :(得分:3)

使用numpy.zeros并通过numpy.argmax进行填充:

out = np.zeros(df.iloc[:, 1:].shape, dtype=int)
out[np.arange(len(out)), np.argmax(df.iloc[:, 1:].values, 1)] = 1
df.iloc[:, 1:] = out

broadcastingargmax一起使用:

a = df.iloc[:, 1:].values
df.iloc[:, 1:] = (a.argmax(axis=1)[:,None] == range(a.shape[1])).astype(int)

两种产品:

   id  level1  level2  level3
0   1       0       1       0
1   2       0       0       1
2   3       0       1       0
3   4       0       0       1
4   5       1       0       0

答案 1 :(得分:2)

您可以对NumPy使用高级索引。由于您的数据帧为int dtype,因此更新基础NumPy数组在这里可以正常工作。

idx = df.iloc[:, 1:].eq(1).values.argmax(1)
df.iloc[:, 1:] = 0
df.values[np.arange(df.shape[0]), idx+1] = 1

print(df)

   id  level1  level2  level3
0   1       0       1       0
1   2       0       0       1
2   3       0       1       0
3   4       0       0       1
4   5       1       0       0

答案 2 :(得分:2)

numpy.eye

v = df.iloc[:, 1:].values
i = np.eye(3, dtype=np.int64)
a = v.argmax(1)
df.iloc[:, 1:] = i[a]
df

   id  level1  level2  level3
0   1       0       1       0
1   2       0       0       1
2   3       0       1       0
3   4       0       0       1
4   5       1       0       0

cumsummask

df.set_index('id').pipe(
    lambda d: d.mask(d.cumsum(1) > 1, 0)
).reset_index()

   id  level1  level2  level3
0   1       0       1       0
1   2       0       0       1
2   3       0       1       0
3   4       0       0       1
4   5       1       0       0

答案 3 :(得分:1)

您可以通过为最大索引分配1来使用get_dummies()

df[df.filter(like='level').columns] = pd.get_dummies(df.filter(like='level').idxmax(1))

   id  level1  level2  level3
0   1       0       1       0
1   2       0       0       1
2   3       0       1       0
3   4       0       0       1
4   5       1       0       0