在DataFrame

时间:2019-07-17 07:09:59

标签: python pandas dataframe

我有一个看起来像这样的数据框:

     0     1     2     3     4     5     6  
0    a(A)  b     c     c     d     a     a
1    b     h     w     k     d     c(A)  k
2    g     e(A)  s     g     h     s     f
3    f     d     s     h(A)  c     w     n
4    e     g     s     b     c     e     w

我想获取每列中包含(A)的单元格的索引。

0   0
1   2
2  NaN
3   3
4  NaN
5   1 
6  NaN

我尝试了这段代码,但结果没有达到我的期望。

df.apply(lambda x: (x.str.contains(r'(A)')==True).idxmax(), axis=0)

结果如下:

0   0
1   2
2   0
3   3
4   0
5   1 
6   0

如果该列中没有(A),我认为它会返回第一个索引。

我应该如何解决?

3 个答案:

答案 0 :(得分:3)

使用Series.where设置默认缺失值,以覆盖DataFrame.idxmax的默认0值:

mask = df.apply(lambda x: x.str.contains('A'))
s1 = mask.idxmax().where(mask.any())
print (s1)
0    0.0
1    2.0
2    NaN
3    3.0
4    NaN
5    1.0
6    NaN
dtype: float64

答案 1 :(得分:3)

您可以执行自己的操作,但是要明确检查行是否包含任何匹配项:

In [51]: pred = df.applymap(lambda x: '(A)' in x)

In [52]: pred.idxmax() * np.where(pred.any(), 1, np.nan)
Out[52]:
0    0.0
1    2.0
2    NaN
3    3.0
4    NaN
5    1.0
6    NaN
dtype: float64

或者,直接使用DataFrame.where

In [211]: pred.where(pred).idxmax()
Out[211]:
0    0.0
1    2.0
2    NaN
3    3.0
4    NaN
5    1.0
6    NaN
dtype: float64

稍微有点单调的是在身份上使用DataFrame.where

In [78]: df.apply(lambda x: x.str.contains('A')).where(lambda x: x).idxmax()
Out[78]:
0    0.0
1    2.0
2    NaN
3    3.0
4    NaN
5    1.0
6    NaN

答案 2 :(得分:1)

apply的末尾添加if条件:

>>> df.apply(lambda x: x.str.contains('A').idxmax() if 'A' in x[x.str.contains('A').idxmax()] else np.nan)
0    0.0
1    2.0
2    NaN
3    3.0
4    NaN
5    1.0
6    NaN
dtype: float64
>>>