我有两个使用pandas构建的数据框,每个pandas超过13列。
df1
中,其中一列为company_name_x
。df2
中,其中一列为company_name_y
。各自框架中的两列都包含大量公司名称,即字符串。作为输出,我希望仅在company_name_x
和company_name_y
的初始部分(比如说50%)相互匹配时才显示匹配的公司。我也在计算模糊比,这似乎工作正常。然而,模糊与上述条件的组合似乎不起作用。
它给出了索引错误:
提供了无法对齐的布尔系列键
以下是我正在使用的代码 -
df4 = df3[df3.Fuzz>85][df3.company_name_mod_x[0:len(df3.company_name_mod_x)/2] ==
df3.company_name_mod_y[0:len(df3.company_name_mod_y)/2]]
df3
是每个可能的df1
和df2
对具有顶部模糊比的帧。
输出应该与fuzz > 85
(工作正常)的公司匹配,并且至少两家公司的前半部分应该匹配(这不起作用)