我一直在寻找,但还没有找到如何在精炼中做到这一点。
我有两列独特的IDS。对于A中的每个a,我想在B中找到前10个最接近的匹配。
我的备份计划是使用Levenshtein进行迭代...但是Refine有一个很好的iterface和更多的算法实现,我希望能够使用它做一些工作。
还是有其他工具可以做到这一点吗?
答案 0 :(得分:1)
您是否知道可以在Refine的群集界面中使用指纹或ngramFingerprint(source)等聚类算法?
使用您的IDS字段,使用以下表达式基于此列创建新列:ngramFingerprint(value)
您现在可以与此新列上的其他数据集交叉。这可能有助于获得更多匹配。