我有两个数据框。来自行业报告的项目标题列表,在标题中包含唯一标识符(UPC)。我有一组分销商目录,我撞到那些商品标题,看看它们是否包含在分销商目录中。
df3 =分销商目录数据框,其中的字段包含SKU(UPC) join = IRI输出文件组合列表的数据框,其中包含一个名为“ TITLE(IRI或Neilsen)”的字段。
我想不出一种在部分匹配的情况下将分发者目录可用性字段引入联接数据框中的方法。
所以我的目标是在df3数据框中添加一个名为“ TITLE(IRI或Neilsen)”的字段,以便将df3分发者目录可用性字段合并到联接数据框中。
df3数据框中SKU字段的重复为:
python df3['TITLE (IRI or Neilsen)'] = df3['SKU'].apply(lambda x: dif.get_close_matches(x, join['TITLE (IRI or Neilsen)'])[0])
输出是将df3中当前的NaN值“ TITLE(IRI或Neilsen)”值替换为联接“ TITLE(IRI或Neilsen)”中的相应部分匹配,从而将df3与附加的“ TITLE(IRI或Neilsen)”合并Neilsen)”加入“ TITLE(IRI或Neilsen)”,并添加df3分发服务器的可用性字段。