Pandas Dataframe查找所有列均等的行

时间:2014-03-28 00:11:41

标签: python pandas

我有一个包含字符的数据框 - 我想要一个布尔结果,告诉我该行的所有列是否具有相同的值。

例如,我有

df = [  a   b   c   d

0  'C'   'C'   'C'   'C' 

1  'C'   'C'   'A'   'A'

2  'A'   'A'   'A'   'A' ]

我希望结果是

0  True

1  False

2  True

我已经尝试了。但似乎我只能检查是否所有都等于一个字母。我能想到的另一种方法是在每一行上做一个唯一的方法,看看它是否等于1?提前谢谢。

5 个答案:

答案 0 :(得分:17)

我认为最干净的方法是使用eq:

检查第一列的所有列
In [11]: df
Out[11]: 
   a  b  c  d
0  C  C  C  C
1  C  C  A  A
2  A  A  A  A

In [12]: df.iloc[:, 0]
Out[12]: 
0    C
1    C
2    A
Name: a, dtype: object

In [13]: df.eq(df.iloc[:, 0], axis=0)
Out[13]: 
      a     b      c      d
0  True  True   True   True
1  True  True  False  False
2  True  True   True   True

现在你可以使用all(如果它们都等于第一项,它们都相等):

In [14]: df.eq(df.iloc[:, 0], axis=0).all(1)
Out[14]: 
0     True
1    False
2     True
dtype: bool

答案 1 :(得分:5)

array与第一列进行比较,并检查每行是否所有True

在numpy中使用相同的解决方案以获得更好的性能:

a = df.values
b = (a == a[:, [0]]).all(axis=1)
print (b)
[ True  True False]

如果需要Series

s = pd.Series(b, axis=df.index)

比较解决方案:

data = [[10,10,10],[12,12,12],[10,12,10]]
df = pd.DataFrame(data,columns=['Col1','Col2','Col3'])

#[30000 rows x 3 columns]
df = pd.concat([df] * 10000, ignore_index=True)
#jez - numpy array
In [14]: %%timeit
    ...: a = df.values
    ...: b = (a == a[:, [0]]).all(axis=1)
141 µs ± 3.23 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

#jez - Series 
In [15]: %%timeit
    ...: a = df.values
    ...: b = (a == a[:, [0]]).all(axis=1)
    ...: pd.Series(b, index=df.index)
169 µs ± 2.02 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

#Andy Hayden
In [16]: %%timeit
    ...: df.eq(df.iloc[:, 0], axis=0).all(axis=1)
2.22 ms ± 68.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

#Wen1
In [17]: %%timeit
    ...: list(map(lambda x : len(set(x))==1,df.values))
56.8 ms ± 1.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

#K.-Michael Aye
In [18]: %%timeit
    ...: df.apply(lambda x: len(set(x)) == 1, axis=1)
686 ms ± 23.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

#Wen2    
In [19]: %%timeit
    ...: df.nunique(1).eq(1)
2.87 s ± 115 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

答案 2 :(得分:3)

nunique版本0.20.0中的新内容。(基于来自Jez的时间benchmark,如果性能不重要则可以使用此内容)

df.nunique(axis = 1).eq(1)
Out[308]: 
0     True
1    False
2     True
dtype: bool

或者您可以将mapset

一起使用
list(map(lambda x : len(set(x))==1,df.values))

答案 3 :(得分:2)

df = pd.DataFrame.from_dict({'a':'C C A'.split(),
                        'b':'C C A'.split(),
                        'c':'C A A'.split(),
                        'd':'C A A'.split()})
df.apply(lambda x: len(set(x)) == 1, axis=1)
0     True
1    False
2     True
dtype: bool

说明:如果行的所有元素都相同,则set(x)只有1个元素。 axis = 1选项适用于行上的任何给定函数。

答案 4 :(得分:1)

您可以使用nunique(axis=1),以便通过以下方式获得结果(添加到新列中):

df['unique'] = df.nunique(axis=1) == 1

@ yo-and-ben-w的答案使用eq(1),但我认为== 1更容易阅读。