在过去的两个月中,我只使用python进行编码,因此,如果这是一个简单的问题,我感到很抱歉。
我从sephora和ulta网站上抓取了两个不同的csv数据,并合并为一个数据帧。
当我进行分组调查以获取新的df产品时,其中的一个或另一个产品具有相同的名称,或者说两者兼有,我走得很远,因为丝芙兰和ulta为其产品命名的含义不同。
这是我的代码的一小段,以及打印回去的内容:
import pandas as pd
import re
sephora_csv = 'sephora_df.csv'
ulta_csv = 'ulta_df.csv'
sephora = pd.read_csv(sephora_csv)
ulta = pd.read_csv(ulta_csv)
frames = [ulta, sephora]
merge_df = pd.concat(frames)
makeup_df = merge_df.groupby(['Brand','Product','Product Type', 'Price'])['Store'].apply(', '.join).reset_index()
makeup_df
42 Anastasia Beverly Hills Blush Kit blush 21.00 Ulta
43 Anastasia Beverly Hills Blush Trio blush 30.00 Sephora
44 Anastasia Beverly Hills Blush Trios blush 30.00 Ulta
如您所见,ABH在丝芙兰拥有Trio,在Ulta拥有Trios。
有1600多行,所以我不能只浏览每一行并自己重命名。
如何重命名它,使其看起来像这样:
43 Anastasia Beverly Hills Blush Trio blush 30.00 Sephora, Ulta
谢谢!
编辑:该示例不是唯一的实例,例如,另一种产品具有相似的名称,但最终将字符串'Tea Tree'添加到产品名称中,而不是在丝芙兰产品名称中。