python-3.x - python中大型数据集上的字符串匹配

我有一个大约3000000行的数据集。该数据由诸如customer_pincode，customer_state，customer_city，customer_address，customer_name之类的列组成。现在我必须通过获取地址的近似匹配来找到居住在同一地址上的人。在我从地址字符串中提取数字之后，我已根据密码对数据进行了分组，然后再次基于这些数字对数据进行了分组，然后创建了所有地址按编号排列的网格，然后对每个条目进行fuzz.token_sort_ratio。但是此过程大约需要7到8天的时间。如何使它工作更快。我正在将熊猫和fuzywuzzy一起用于绒毛比率。

python中大型数据集上的字符串匹配

0 个答案: