检查一个系列是否是Pandas中另一个系列的子集

时间:2016-03-29 09:38:24

标签: python pandas subset

我有来自2个不同数据帧的2列。我想检查第1列是否是第2列的子集。

我使用以下代码:

set(col1).issubset(set(col2))

这个问题是如果col1只有整数而col2有整数和字符串,那么返回false。发生这种情况是因为col2的元素被强制转换为字符串。例如,

set([376, 264, 365, 302]) & 
set(['302', 'water', 'nist1950', '264', '365', '376'])

我尝试使用pandas中的isin。但是如果col1和col2是系列,那么这将给出一系列布尔值。我想要True or False

我该如何解决这个问题?我错过了一个更简单的功能吗?

修改1

添加示例。

col1
0    365
1    376
2    302
3    264
Name: subject, dtype: int64

col2
0     nist1950
1     nist1950
2        water
3        water
4          376
5          376
6          302
7          302
8          365
9          365
10         264
11         264
12         376
13         376
Name: subject, dtype: object

修改2

col1和col2可以有整数,字符串,浮点数等。我不想对这些列中的内容做任何预先判断。

2 个答案:

答案 0 :(得分:3)

您可以使用isinall一起检查col1中是否包含所有col2个元素。要转换为数字,您可以使用pd.to_numeric

s1 = pd.Series([376, 264, 365, 302])
s2 = pd.Series(['302', 'water', 'nist1950', '264', '365', '376'])

res = s1.isin(pd.to_numeric(s2, errors='coerce')).all()

In [213]: res
Out[213]: True

更详细:

In [214]: pd.to_numeric(s2, errors='coerce')
Out[214]:
0    302
1    NaN
2    NaN
3    264
4    365
5    376
dtype: float64

In [215]: s1.isin(pd.to_numeric(s2, errors='coerce'))
Out[215]:
0    True
1    True
2    True
3    True
dtype: bool

注意 pd.to_numeric适用于pandas版本>=0.17.0以前您可以使用convert_objectsconvert_numeric=True

修改

如果您更喜欢使用set的解决方案,则可以将第一个设置转换为str,然后将其与您的代码进行比较:

s3 = set(map(str, s1))

In [234]: s3
Out[234]: {'264', '302', '365', '376'}

然后您可以issubset使用s2

In [235]: s3.issubset(s2)
Out[235]: True

set(s2)

In [236]: s3.issubset(set(s2))
Out[236]: True

<强> EDIT2

s1 = pd.Series(['376', '264', '365', '302'])
s4 = pd.Series(['nist1950', 'nist1950', 'water', 'water', '376', '376', '302', '302', '365', '365', '264', '264', '376', '376'])

In [263]: s1.astype(float).isin(pd.to_numeric(s4, errors='coerce')).all()
Out[263]: True

答案 1 :(得分:0)

您可以将merge与参数indicator=True一起使用:

In [3]:
df1 = pd.DataFrame({'a':[376, 264, 365, 302]})
df2=pd.DataFrame({'b':[302, 'water', 'nist1950', '264', '365', '376']})
df1.merge(df2, left_on='a', right_on='b', how='left',indicator=True)

Out[3]:
     a    b     _merge
0  376  NaN  left_only
1  264  NaN  left_only
2  365  NaN  left_only
3  302  302       both

因此,如果您将感兴趣的cols作为left_onright_on参数传递,则添加的col _merge将告知dfs或{{1}中存在哪些列值}

这需要pandas版本left_only及以上