在迭代数据帧时删除双精度

时间:2019-09-03 15:09:30

标签: python pandas loops dataframe

我正在尝试从数据框中删除双打。

基本上,数据框包含两次(或更多次)出现的文档。 可以通过比较文档说明找到双打。 按照我的逻辑,我必须找出重复的对象,将数据复制并从数据帧和迭代数据帧中删除它们。

但是似乎仍然有双打,我认为这是因为掉线,但不知道如何解决。
Dataset screen 所以描述是绿色的,我需要删除两者之一,然后融合所有黑色的内容。

例如:

URL1 + URL2 | Explorimmo + Bien_ici |公寓|描述

很遗憾,我无法链接数据集。

file = pd.ExcelFile(mc.file_path)
df = pd.read_excel(file)

description_duplicate = df.loc[df.duplicated(['DESCRIPTION']) == True]

for idx1, clean in description_duplicate.iterrows():
    for idx2, dirty in description_duplicate.iterrows():
        if idx1 != idx2:
            if clean['DESCRIPTION'] == dirty['DESCRIPTION']:
                clean['CRAWL_SOURCE'] = clean['CRAWL_SOURCE'] + " / " +dirty['CRAWL_SOURCE']
                clean['URL'] = clean['URL'] + " / " + dirty['URL']
                description_duplicate = description_duplicate.drop(idx2)
                df = df.drop(idx2)
                df[idx1] = clean

1 个答案:

答案 0 :(得分:1)

您只需要使用x函数删除重复项:

pandas.DataFrame.drop_duplicates()