python中大型数据集上的字符串匹配

时间:2020-03-04 04:58:16

标签: python-3.x pandas fuzzywuzzy

我有一个大约3000000行的数据集。该数据由诸如customer_pincode,customer_state,customer_city,customer_address,customer_name之类的列组成。现在我必须通过获取地址的近似匹配来找到居住在同一地址上的人。在我从地址字符串中提取数字之后,我已根据密码对数据进行了分组,然后再次基于这些数字对数据进行了分组,然后创建了所有地址按编号排列的网格,然后对每个条目进行fuzz.token_sort_ratio。但是此过程大约需要7到8天的时间。如何使它工作更快。我正在将熊猫和fuzywuzzy一起用于绒毛比率。

0 个答案:

没有答案
相关问题