Question

我正在尝试从数据框中删除双打。

基本上，数据框包含两次（或更多次）出现的文档。可以通过比较文档说明找到双打。按照我的逻辑，我必须找出重复的对象，将数据复制并从数据帧和迭代数据帧中删除它们。

但是似乎仍然有双打，我认为这是因为掉线，但不知道如何解决。
所以描述是绿色的，我需要删除两者之一，然后融合所有黑色的内容。

例如：

URL1 + URL2 | Explorimmo + Bien_ici |公寓|描述

很遗憾，我无法链接数据集。

file = pd.ExcelFile(mc.file_path)
df = pd.read_excel(file)

description_duplicate = df.loc[df.duplicated(['DESCRIPTION']) == True]

for idx1, clean in description_duplicate.iterrows():
    for idx2, dirty in description_duplicate.iterrows():
        if idx1 != idx2:
            if clean['DESCRIPTION'] == dirty['DESCRIPTION']:
                clean['CRAWL_SOURCE'] = clean['CRAWL_SOURCE'] + " / " +dirty['CRAWL_SOURCE']
                clean['URL'] = clean['URL'] + " / " + dirty['URL']
                description_duplicate = description_duplicate.drop(idx2)
                df = df.drop(idx2)
                df[idx1] = clean

Answer 1

您只需要使用x函数删除重复项：

pandas.DataFrame.drop_duplicates()

在迭代数据帧时删除双精度

1 个答案: