如何在python中将同一数据集中两列之间的所有元素进行字符串匹配?

时间:2019-05-30 10:14:50

标签: python string match multiple-columns fuzzywuzzy

我在同一数据集A和B中有两列。

A =包含固定城市列表的7954行(固定数量),B =可以是任意数量的行(包含另一个城市列表)。

主要目标是制作一个工具:

1-对于用B上传的任何列表,都必须清除所有标点(数字,重音符号,点,等)的名称,并以B.title()格式输入。

2-在两列之间执行字符串匹配,请记住B中名称的顺序将始终与A不同。因此,我需要A中的每个元素在任何位置检查B中的每个元素。

3-创建一个新的(或两个)列来显示匹配项,例如:

  A          B        C(lookups of A in B)  D(match result)
 Sara       Sara      Sara                  100%
 James      Saraz     Sara                   84%
 Mark       James     James                 100%

4-将新数据集导出到xlsx文件

5-谢谢!

0 个答案:

没有答案