我正在使用Python Dedupe软件包执行记录链接任务。 这意味着将一个数据集中的公司名称与其他数据相匹配。
Dedupe软件包允许用户标记对以训练Logistic回归模型。但是,这是一个手动过程,需要为屏幕上显示的每一对输入y / n。
我想加载一个培训文件,该文件有3列,例如Company 1,Company 2,Match 如果Company 1和Company 2分别相同或不同,则Match可以取值yes或no。
我正在遵循此source code,但找不到加载训练文件的方法。
此外,文档显示可以更改默认的Classifier,但不确定如何执行
有人可以帮我吗
答案 0 :(得分:0)
在重复数据删除文档中查找trainingDataLink
函数。它旨在处理预先标记的数据以实现记录链接。