我有来自2个不同数据帧的2列。我想检查第1列是否是第2列的子集。
我使用以下代码:
set(col1).issubset(set(col2))
这个问题是如果col1只有整数而col2有整数和字符串,那么返回false。发生这种情况是因为col2的元素被强制转换为字符串。例如,
set([376, 264, 365, 302]) &
set(['302', 'water', 'nist1950', '264', '365', '376'])
我尝试使用pandas中的isin
。但是如果col1和col2是系列,那么这将给出一系列布尔值。我想要True or False
。
我该如何解决这个问题?我错过了一个更简单的功能吗?
修改1
添加示例。
col1
0 365
1 376
2 302
3 264
Name: subject, dtype: int64
col2
0 nist1950
1 nist1950
2 water
3 water
4 376
5 376
6 302
7 302
8 365
9 365
10 264
11 264
12 376
13 376
Name: subject, dtype: object
修改2
col1和col2可以有整数,字符串,浮点数等。我不想对这些列中的内容做任何预先判断。
答案 0 :(得分:3)
您可以使用isin
与all
一起检查col1
中是否包含所有col2
个元素。要转换为数字,您可以使用pd.to_numeric
:
s1 = pd.Series([376, 264, 365, 302])
s2 = pd.Series(['302', 'water', 'nist1950', '264', '365', '376'])
res = s1.isin(pd.to_numeric(s2, errors='coerce')).all()
In [213]: res
Out[213]: True
更详细:
In [214]: pd.to_numeric(s2, errors='coerce')
Out[214]:
0 302
1 NaN
2 NaN
3 264
4 365
5 376
dtype: float64
In [215]: s1.isin(pd.to_numeric(s2, errors='coerce'))
Out[215]:
0 True
1 True
2 True
3 True
dtype: bool
注意 pd.to_numeric
适用于pandas版本>=0.17.0
以前您可以使用convert_objects
与convert_numeric=True
修改强>
如果您更喜欢使用set
的解决方案,则可以将第一个设置转换为str
,然后将其与您的代码进行比较:
s3 = set(map(str, s1))
In [234]: s3
Out[234]: {'264', '302', '365', '376'}
然后您可以issubset
使用s2
:
In [235]: s3.issubset(s2)
Out[235]: True
或set(s2)
:
In [236]: s3.issubset(set(s2))
Out[236]: True
<强> EDIT2 强>
s1 = pd.Series(['376', '264', '365', '302'])
s4 = pd.Series(['nist1950', 'nist1950', 'water', 'water', '376', '376', '302', '302', '365', '365', '264', '264', '376', '376'])
In [263]: s1.astype(float).isin(pd.to_numeric(s4, errors='coerce')).all()
Out[263]: True
答案 1 :(得分:0)
您可以将merge
与参数indicator=True
一起使用:
In [3]:
df1 = pd.DataFrame({'a':[376, 264, 365, 302]})
df2=pd.DataFrame({'b':[302, 'water', 'nist1950', '264', '365', '376']})
df1.merge(df2, left_on='a', right_on='b', how='left',indicator=True)
Out[3]:
a b _merge
0 376 NaN left_only
1 264 NaN left_only
2 365 NaN left_only
3 302 302 both
因此,如果您将感兴趣的cols作为left_on
和right_on
参数传递,则添加的col _merge
将告知dfs或{{1}中存在哪些列值}
这需要pandas版本left_only
及以上