我想比较类别值稍有不同的类别
cats1=pd.Categorical(["a", "b"])
cats2=pd.Categorical(["c", "b"])
cats1==cats2
这将引发错误,因为它们的值设置不相同。它们来自不同的数据源,但是值大多相同。
我可以有效地比较它们而不将整个列都转换为字符串吗?
如果需要以上比较,我需要布尔向量。
答案 0 :(得分:0)
正如已经指出的那样,您可以使用<div id="container">
<div id="x">Write something</div>
<div id="center">middle</div>
<div id="y">New</div>
</div>
来查看x.isin(y)
中x
的内容。要确切了解它们有多少重叠,可以执行以下操作:
y
输出:
res = cats1.isin(cats2)
print(res.mean())