Openrefine-由第二名或第三名候选人调和

时间:2018-12-19 13:15:18

标签: openrefine database-reconciliation

在和解服务中,我经常遇到这个问题:最好的候选人并不是真正正确的人,最好的是第二或第三个候选人(因为它的分数也更高),就像这样:

The third candidate is the correct one

如何选择正确的质量?我有成千上万的记录,并且在很多这样的案例中绊绊。我认为应该以某种方式而不是一个一个地做。

例如说“无论其排名如何,都获得最佳候选人分数”。

编辑:正如pintoch所说,这可能是一个错误。同时,可以创建两个数字构面。一个带有cell.recon.candidates[1].score,另一个带有cell.recon.candidates[2].score。与他们一起玩,可以选择第三名和第二名候选人的分数,以确保您获得分数最高的候选人。然后必须将其一一调和,但这只是单击的问题。

1 个答案:

答案 0 :(得分:2)

我要说的是,这种行为首先是一个错误:应按得分的降低对候选人进行排序。 reconciliation service API没有指定服务应以任何特定顺序返回其候选者,但这可能是意外的。

最快的解决方案是与您正在使用对帐服务的人员联系,并要求他们通过降低分数来对候选人进行排序。

这也暗示了OpenRefine本身的改进:OpenRefine始终可以通过降低分数来对对帐服务的结果进行排序。我已经打开a ticket about this

更广泛地说,我同意可以改进基于特定标准匹配候选人的当前方法(但这可能需要重新设计和解系统的重要部分,这将需要时间)。