Question

我正在尝试使用fuzzy-wuzzy合并2个DataFrame。 df1数据框是一个包含销售项目（15万行和30列）的表，而df2是一个包含销售项目名称（'{{1} }'）。我没有销售项目的参考数据，但是我知道其中一些共享相同的参考数据，尽管名称略有不同。

示例：我有销售项目Defproduto的参考数据，但没有销售项目aa_XXX_yy_RENT17_zzz_www_class的参考数据。使用aa_XXX_yy_VER17_zzz_www_class，我可以获得fuzzy-wuzzy的参考数据，并将其分配给所有名称为aa_XXX_yy_RENT17_zzz_www_class的销售商品的sales表中。

我正在使用以下代码：

aa_XXX_yy_VER17_zzz_www_class

问题：它实在太慢了。仅对100条线的样本大约需要40秒。我有150K可以处理（并且需要更新df1的5个不同特性，而不仅仅是价格）。

是否有更有效/快速的流程来做到这一点？我尝试过使用大熊猫合并的不同方法，但是都无法获得需要的结果。

提前谢谢

使用Fuzzywuzzy

0 个答案: