我正在尝试使用pandas“ pandas_dedupe.dedupe_dataframe” pkg / function查找在某些列选择上具有相似属性的记录簇。问题是我正在将此代码与UI应用程序集成,并且不希望我的用户看到通过pandas_dedupe.dedupe_dataframe()弹出提示。我希望它采用默认值并且不等待集群的外部输入。我了解跳过此培训过程有点不合逻辑,但我没有选择跳过此Q / A过程的选择。附加了代码示例和快照。有关该pkg的任何文档,说明需要什么参数?
import pandas as pd
import pandas_dedupe
#load dataframe
df = pd.read_csv('Lobbyists_2012_present.csv')
df_final = pandas_dedupe.dedupe_dataframe(df,['LOBBYIST LAST NAME','LOBBYIST FIRST NAME','LOBBYIST MIDDLE INITIAL'])
df_final.to_csv('deduplication_output.csv')