Question

在过去的两个月中，我只使用python进行编码，因此，如果这是一个简单的问题，我感到很抱歉。

我从sephora和ulta网站上抓取了两个不同的csv数据，并合并为一个数据帧。

当我进行分组调查以获取新的df产品时，其中的一个或另一个产品具有相同的名称，或者说两者兼有，我走得很远，因为丝芙兰和ulta为其产品命名的含义不同。

这是我的代码的一小段，以及打印回去的内容：

import pandas as pd
import re

sephora_csv = 'sephora_df.csv'
ulta_csv = 'ulta_df.csv'
sephora = pd.read_csv(sephora_csv)
ulta = pd.read_csv(ulta_csv)

frames = [ulta, sephora]
merge_df = pd.concat(frames)

makeup_df = merge_df.groupby(['Brand','Product','Product Type', 'Price'])['Store'].apply(', '.join).reset_index()

makeup_df

42  Anastasia Beverly Hills Blush Kit   blush   21.00   Ulta
43  Anastasia Beverly Hills Blush Trio  blush   30.00   Sephora
44  Anastasia Beverly Hills Blush Trios blush   30.00   Ulta

如您所见，ABH在丝芙兰拥有Trio，在Ulta拥有Trios。

有1600多行，所以我不能只浏览每一行并自己重命名。

如何重命名它，使其看起来像这样：

43  Anastasia Beverly Hills Blush Trio  blush   30.00   Sephora, Ulta

谢谢！

编辑：该示例不是唯一的实例，例如，另一种产品具有相似的名称，但最终将字符串'Tea Tree'添加到产品名称中，而不是在丝芙兰产品名称中。

如何合并名称相似的熊猫数据框中的行？

0 个答案: