需要了解如何在执行pandas_dedupe.dedupe_dataframe()

时间:2019-02-14 07:08:13

标签: python pandas python-dedupe

我正在尝试使用pandas“ pandas_dedupe.dedupe_dataframe” pkg / function查找在某些列选择上具有相似属性的记录簇。问题是我正在将此代码与UI应用程序集成,并且不希望我的用户看到通过pandas_dedupe.dedupe_dataframe()弹出提示。我希望它采用默认值并且不等待集群的外部输入。我了解跳过此培训过程有点不合逻辑,但我没有选择跳过此Q / A过程的选择。附加了代码示例和快照。有关该pkg的任何文档,说明需要什么参数?

import pandas as pd
import pandas_dedupe

#load dataframe
df = pd.read_csv('Lobbyists_2012_present.csv')

启动重复数据删除

df_final = pandas_dedupe.dedupe_dataframe(df,['LOBBYIST LAST NAME','LOBBYIST FIRST NAME','LOBBYIST MIDDLE INITIAL'])

将输出发送到csv

df_final.to_csv('deduplication_output.csv')

enter image description here

0 个答案:

没有答案