我知道Dedupe使用主动学习来删除重复项并执行记录链接。
但是,我想知道我们是否可以通过已经匹配的对(标签数据)作为主动学习的输入传递excel表?
答案 0 :(得分:1)
不直接。
您需要将数据转换为markPairs
可以使用的格式。
类似的东西:
labeled_examples = {'match' : [],
'distinct' : [({'name' : 'Georgie Porgie'},
{'name' : 'Georgette Porgette'})]
}
deduper.markPairs(labeled_examples)
我们提供便利功能,可将电子表格数据转换为此格式trainingDataDedupe
。
(我是重复数据删除的作者)