我有一个包含4000列的巨大数据框,我需要查看一个或多个列中是否存在一个值(我需要列名),如何索引熊猫中的列数和列名?到目前为止,我尝试应用此想法:
df.index[df.columns] == 'my_val'].tolist()
但是这只是返回布尔值,如何返回值所在列的名称的详细信息?
答案 0 :(得分:4)
我认为需要:
cols = df.columns[(df == 'my_val').any()]
示例:
df = pd.DataFrame({'A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb')})
print (df)
A B C D E F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
cols = df.columns[(df == 'a').any()]
print (cols)
Index(['A', 'F'], dtype='object')
说明:
首先按值比较所有DataFrame:
print (df == 'a')
A B C D E F
0 True False False False False True
1 False False False False False True
2 False False False False False True
3 False False False False False False
4 False False False False False False
5 False False False False False False
然后按DataFrame.any
每行过滤至少一个True
:
print ((df == 'a').any())
A True
B False
C False
D False
E False
F True
dtype: bool
通过布尔掩码最后一次过滤df.columns
:
print (df.columns[(df == 'a').any()])
Index(['A', 'F'], dtype='object')