我正在尝试使用fuzzy-wuzzy
合并2个DataFrame。
df1
数据框是一个包含销售项目(15万行和30列)的表,而df2
是一个包含销售项目名称('{{1} }')。
我没有销售项目的参考数据,但是我知道其中一些共享相同的参考数据,尽管名称略有不同。
示例:我有销售项目Defproduto
的参考数据,但没有销售项目aa_XXX_yy_RENT17_zzz_www_class
的参考数据。
使用aa_XXX_yy_VER17_zzz_www_class
,我可以获得fuzzy-wuzzy
的参考数据,并将其分配给所有名称为aa_XXX_yy_RENT17_zzz_www_class
的销售商品的sales表中。
我正在使用以下代码:
aa_XXX_yy_VER17_zzz_www_class
问题:它实在太慢了。仅对100条线的样本大约需要40秒。我有150K可以处理(并且需要更新df1的5个不同特性,而不仅仅是价格)。
是否有更有效/快速的流程来做到这一点?我尝试过使用大熊猫合并的不同方法,但是都无法获得需要的结果。
提前谢谢