在和解服务中,我经常遇到这个问题:最好的候选人并不是真正正确的人,最好的是第二或第三个候选人(因为它的分数也更高),就像这样:
如何选择正确的质量?我有成千上万的记录,并且在很多这样的案例中绊绊。我认为应该以某种方式而不是一个一个地做。
例如说“无论其排名如何,都获得最佳候选人分数”。
编辑:正如pintoch所说,这可能是一个错误。同时,可以创建两个数字构面。一个带有cell.recon.candidates[1].score
,另一个带有cell.recon.candidates[2].score
。与他们一起玩,可以选择第三名和第二名候选人的分数,以确保您获得分数最高的候选人。然后必须将其一一调和,但这只是单击的问题。
答案 0 :(得分:2)
我要说的是,这种行为首先是一个错误:应按得分的降低对候选人进行排序。 reconciliation service API没有指定服务应以任何特定顺序返回其候选者,但这可能是意外的。
最快的解决方案是与您正在使用对帐服务的人员联系,并要求他们通过降低分数来对候选人进行排序。
这也暗示了OpenRefine本身的改进:OpenRefine始终可以通过降低分数来对对帐服务的结果进行排序。我已经打开a ticket about this。
更广泛地说,我同意可以改进基于特定标准匹配候选人的当前方法(但这可能需要重新设计和解系统的重要部分,这将需要时间)。