如何使用Google Refine用指纹替换字符串值?

时间:2012-11-26 20:34:34

标签: data-cleansing fingerprinting google-refine

我有一个包含100,000多个字符串的列。我希望Google Refine用他们的指纹替换这些字符串。

我在Google Refine中选择了该列,并创建了一个Text Facet。从Text Facet我可以选择“Cluster”。这将显示聚类,我假设它们是指具有相同指纹的字符串值,并允许我选择一个新的单元格值,默认为集群的第一个成员的名称。

我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实是同一个集群的一部分,我需要它们是相同的值。我无法连接这些文件,因为这会导致Refine处理的数据太多,尽管根据Refine FAQ优化了内存参数。

所以我只是在寻找一个操作,它将每个单元格放在一列中,计算其指纹,并用指纹替换列中的值。

我在OSX 10.7上使用Google Refine 2.5

1 个答案:

答案 0 :(得分:2)

有数千种选择的文字方面会让您的浏览器陷入困境。如果您仅使用构面作为访问群集的方法,则可以使用Edit Cells -> Cluster and Edit

来获得相同的功能

要计算指纹,请使用恰当命名的指纹函数,即value.fingerprint(),但我建议您添加新列而不是覆盖原始值,以防您再次需要它们。