如何为Python Dedupe使用预先标记的训练数据

时间:2019-07-18 10:03:33

标签: python duplicates record-linkage python-dedupe

我正在使用Python Dedupe软件包执行记录链接任务。 这意味着将一个数据集中的公司名称与其他数据相匹配。

Dedupe软件包允许用户标记对以训练Logistic回归模型。但是,这是一个手动过程,需要为屏幕上显示的每一对输入y / n。

我想加载一个培训文件,该文件有3列,例如Company 1,Company 2,Match 如果Company 1和Company 2分别相同或不同,则Match可以取值yes或no。

我正在遵循此source code,但找不到加载训练文件的方法。

此外,文档显示可以更改默认的Classifier,但不确定如何执行

有人可以帮我吗

1 个答案:

答案 0 :(得分:0)

在重复数据删除文档中查找trainingDataLink函数。它旨在处理预先标记的数据以实现记录链接。