我正在尝试从数据框中删除双打。
基本上,数据框包含两次(或更多次)出现的文档。 可以通过比较文档说明找到双打。 按照我的逻辑,我必须找出重复的对象,将数据复制并从数据帧和迭代数据帧中删除它们。
但是似乎仍然有双打,我认为这是因为掉线,但不知道如何解决。
所以描述是绿色的,我需要删除两者之一,然后融合所有黑色的内容。
例如:
URL1 + URL2 | Explorimmo + Bien_ici |公寓|描述
很遗憾,我无法链接数据集。
file = pd.ExcelFile(mc.file_path)
df = pd.read_excel(file)
description_duplicate = df.loc[df.duplicated(['DESCRIPTION']) == True]
for idx1, clean in description_duplicate.iterrows():
for idx2, dirty in description_duplicate.iterrows():
if idx1 != idx2:
if clean['DESCRIPTION'] == dirty['DESCRIPTION']:
clean['CRAWL_SOURCE'] = clean['CRAWL_SOURCE'] + " / " +dirty['CRAWL_SOURCE']
clean['URL'] = clean['URL'] + " / " + dirty['URL']
description_duplicate = description_duplicate.drop(idx2)
df = df.drop(idx2)
df[idx1] = clean
答案 0 :(得分:1)
您只需要使用x
函数删除重复项:
pandas.DataFrame.drop_duplicates()