使用Fuzzywuzzy

时间:2018-08-08 11:04:45

标签: python pandas dataframe merge fuzzywuzzy

我正在尝试使用fuzzy-wuzzy合并2个DataFrame。 df1数据框是一个包含销售项目(15万行和30列)的表,而df2是一个包含销售项目名称('{{1} }')。 我没有销售项目的参考数据,但是我知道其中一些共享相同的参考数据,尽管名称略有不同。

示例:我有销售项目Defproduto的参考数据,但没有销售项目aa_XXX_yy_RENT17_zzz_www_class的参考数据。 使用aa_XXX_yy_VER17_zzz_www_class,我可以获得fuzzy-wuzzy的参考数据,并将其分配给所有名称为aa_XXX_yy_RENT17_zzz_www_class的销售商品的sales表中。

我正在使用以下代码:

aa_XXX_yy_VER17_zzz_www_class

问题:它实在太慢了。仅对100条线的样本大约需要40秒。我有150K可以处理(并且需要更新df1的5个不同特性,而不仅仅是价格)。

是否有更有效/快速的流程来做到这一点?我尝试过使用大熊猫合并的不同方法,但是都无法获得需要的结果。

提前谢谢

0 个答案:

没有答案