FuzzyWuzzy使用两个pandas数据帧python

时间:2016-08-25 17:29:05

标签: python pandas fuzzy-comparison fuzzy fuzzywuzzy

我想找到两个数据帧中字符串的fuzz.ratio。假设我有2个数据帧df,列A,B和bt_df,列A1,B1 ..我想比较列df ['B']和bt_df ['B1']并返回最佳匹配分数及其对应的id在df [A]和。

df
Out[8]: 
                  A            B
0  11111111111111111111  Cheesesalad
1  22222222222222222222       Cheese
2  33333333333333333333        salad
3  44444444444444444444     BMWSalad
4  55555555555555555555          BMW
5  66666666666666666666        Apple
6  77777777777777777777    Apple####
7  88888888888888888888    Macrooni!

bt_df
Out[9]: 
    A1        B1
0   180336       NaN
1   154263    Cheese
2   130876     Salad
3   204430  Macrooni
4   153490       NaN
5    48879       NaN
6   185495       NaN
7   105099       NaN
8     8645     Apple
9    54038       NaN
10  156523       NaN
11   18156       BWM

Hence the result should be:
B1            matchedstring   score   id
Cheese       Cheese           100     22222222222222222222
.....
.....

提前致谢。

0 个答案:

没有答案