模糊模糊和熊猫对SQL的模糊匹配

时间:2020-01-19 21:48:39

标签: python pandas fuzzywuzzy

我在SQL中具有下表,并希望使用Fuzzy Wuzzy比较表中的所有记录以查找任何可能的重复,在这种情况下,第1行是第2行的重复(反之亦然)。有人可以解释我如何使用Fuzzy Wuzzy和Pandas在此表中添加另外两列(最高分和记录行数)吗?谢谢。

输入:

Vendor  Doc Date    Invoice Date       Invoice Ref Num  Invoice Amount
ABC    5/12/2019    5/10/2019          ABCDE56.         56
ABC    5/13/2019    5/10/2019          ABCDE56          56
TIM    4/15/2019    4/10/2019          RTET5SDF         100

所需的输出:

Vendor  Doc Date    Invoice Date    Invoice Ref Num Invoice Amount  Highest Score   Record Line Num
ABC     5/12/2019   5/10/2019       ABCDE56.        56              96              2
ABC     5/13/2019   5/10/2019       ABCDE56         56              96              1
TIM     4/15/2019   4/10/2019       RTET5SDF        100             0               N/A

0 个答案:

没有答案