谷歌精炼:使用构面工具推断两列之间的地图

时间:2013-03-21 16:43:41

标签: google-refine

我一直在寻找,但还没有找到如何在精炼中做到这一点。

我有两列独特的IDS。对于A中的每个a,我想在B中找到前10个最接近的匹配。

我的备份计划是使用Levenshtein进行迭代...但是Refine有一个很好的iterface和更多的算法实现,我希望能够使用它做一些工作。

还是有其他工具可以做到这一点吗?

1 个答案:

答案 0 :(得分:1)

您是否知道可以在Refine的群集界面中使用指纹或ngramFingerprint(source)等聚类算法?

使用您的IDS字段,使用以下表达式基于此列创建新列:ngramFingerprint(value)

您现在可以与此新列上的其他数据集交叉。这可能有助于获得更多匹配。