模糊字符串匹配和合并数据库-数据框

时间:2019-03-01 12:55:18

标签: python dataframe join match fuzzy-comparison

我有两个试图与之比较的数据框(带有字符串)。一个包含一个区域列表,另一个包含一个长信息的区域列表。我正在努力编写代码来执行以下操作:

1)检查df1中的字符串是否与df2中的区域名称匹配(或部分匹配),然后它将合并并保留长的lat列。

2)如果df1与df2不匹配,则新列的NaN或零。

代码:

import pandas as pd
df1 = pd.read_csv('Dubai Communities1.csv')
df1.head()

    CNAME_E1
0   Abu Hail
1   Al Asbaq
2   Al Aweer First
3   Al Aweer Second
4   Al Bada 

df2 = pd.read_csv('Dubai Communities2.csv')
df2.head()

    COMM_NUM    CNAME_E2    Latitude    Longitude
0   315         UMM HURAIR  55.3237     25.2364
1   917         AL MARMOOM  55.4518     24.9756
2   624         WARSAN      55.4034     25.1424
3   123         AL MUTEENA  55.3228     25.2739
4   813         AL ROWAIYAH 55.3981     25.1053

搜索和加入后的输出将如下所示:

    CName_E1    CName_E3    Latitude    Longitude
0   Area1       Area1       22          7.25
1   Area2       Area2       38          71.83
2   Area3       NaN         NaN         NaN
3   Area4       Area4       35          8.05

0 个答案:

没有答案