Question

我希望在每一行中找到最高值，并返回python中值的列标题。例如，我想在每一行中找到前两位：

df =  
       A    B    C    D  
       5    9    8    2  
       4    1    2    3

我希望我的输出看起来像这样：

df =        
       B    C  
       A    D

Answer 1

您可以使用字典理解在数据框的每一行中生成largest_n值。我转置了数据框，然后将nlargest应用于每个列。我使用.index.tolist()来提取所需的top_n列。最后，我转换了这个结果，使数据帧恢复到所需的形状。

top_n = 2
>>> pd.DataFrame({n: df.T[col].nlargest(top_n).index.tolist() 
                  for n, col in enumerate(df.T)}).T
   0  1
0  B  C
1  A  D

Answer 2

我决定采用另一种方法：将pd.Series.nlargest()函数应用于每一行。

解决方案路径

>>> df.apply(pd.Series.nlargest, axis=1, n=2)
     A    B    C    D
0  NaN  9.0  8.0  NaN
1  4.0  NaN  NaN  3.0

这为我们提供了每一行的最高值，但保留了原始列，从而导致难看的NaN值，其中一列并非到处都是前n个值的一部分。实际上，我们希望接收nlargest()结果的索引。

>>> df.apply(lambda s, n: s.nlargest(n).index, axis=1, n=2)
0    Index(['B', 'C'], dtype='object')
1    Index(['A', 'D'], dtype='object')
dtype: object

快到了。剩下的就是将Index对象转换为Series。

解决方案

df.apply(lambda s, n: pd.Series(s.nlargest(n).index), axis=1, n=2)
   0  1
0  B  C
1  A  D

请注意，我没有使用Index.to_series()函数，因为我不想要保留原始索引。

在python的数据框中的每一行中查找最高值

2 个答案: