使重复数据删除从现有标签数据中学习

时间:2017-12-01 13:14:50

标签: python-2.7 record-linkage python-dedupe

我知道Dedupe使用主动学习来删除重复项并执行记录链接。

但是,我想知道我们是否可以通过已经匹配的对(标签数据)作为主动学习的输入传递excel表?

1 个答案:

答案 0 :(得分:1)

不直接。

您需要将数据转换为markPairs可以使用的格式。

类似的东西:

labeled_examples = {'match'    : [],
                    'distinct' : [({'name' : 'Georgie Porgie'},
                                   {'name' : 'Georgette Porgette'})]
                    }
deduper.markPairs(labeled_examples)

我们提供便利功能,可将电子表格数据转换为此格式trainingDataDedupe

(我是重复数据删除的作者)