从pandas DataFrame中提取符合条件的单元格索引

时间:2014-12-28 02:53:36

标签: python pandas dataframe indexing

我在这样的pandas中有一个DataFrame:

  a b c
A 1 2 3 
B 4 5 6
C 7 8 9

我想提取其单元格值大于6的索引名称和列名称对。

换句话说,我想获得

[["B","c"], ["C","a"], ["C","b"], ["C","c"]]

有没有聪明的方法可以做到这一点?

2 个答案:

答案 0 :(得分:4)

您可以使用stack将框架展平为系列,使用布尔索引选择所需的术语,最后将结果索引转换为列表:

s = df.stack()
ii = s[s >= 6].index.tolist()

例如:

>>> s = df.stack()
>>> s
A  a    1
   b    2
   c    3
B  a    4
   b    5
   c    6
C  a    7
   b    8
   c    9
dtype: int64
>>> s[s >= 6]
B  c    6
C  a    7
   b    8
   c    9
dtype: int64
>>> s[s >= 6].index
MultiIndex(levels=[[u'A', u'B', u'C'], [u'a', u'b', u'c']],
           labels=[[1, 2, 2, 2], [2, 0, 1, 2]])
>>> s[s >= 6].index.tolist()
[('B', 'c'), ('C', 'a'), ('C', 'b'), ('C', 'c')]

请注意:(1)我使用>= 6,因为它符合您的示例,(2)这严格来说是一个元组列表而不是您要求的列表列表,但您可以转换如果你真的想。

答案 1 :(得分:1)

您可以使用NumPy路线并使用np.choosenp.argwhere

创建行和列标签的数组,并使用np.argwhere返回给定条件所在的整数索引。使用np.choose检索相应的行和列索引标签:

>>> xy = np.column_stack((df.index, df.columns))
>>> np.choose(np.argwhere(df >= 6), xy)
array([['B', 'c'],
       ['C', 'a'],
       ['C', 'b'],
       ['C', 'c']], dtype=object)

这将返回一个数组:您可以使用tolist()来获取Python列表:

>>> np.choose(np.argwhere(df >= 6), xy).tolist()
[['B', 'c'], ['C', 'a'], ['C', 'b'], ['C', 'c']]