使用OpenRefine清理地址 - 群集完全匹配

时间:2014-12-04 03:26:50

标签: csv cluster-analysis openrefine data-cleaning

我正在使用Open Refine清理工作表(.csv)中的某些地址。如何在列中聚类完全匹配?似乎聚类算法将聚类几乎相似但仅在数量上不同的地址。例如:

56, LORONG RENGAS, SELANGOR
76, LORONG RENGAS, SELANGOR
90, LORONG RENGAS, SELANGOR
76, lorong rengas, selangor
56, LORONG RENGAS, SELANGOR

如何根据完全匹配使用OpenRefine对这些地址进行聚类?问题听起来很愚蠢,但我对这件事感到失望。

由于

1 个答案:

答案 0 :(得分:1)

您是否尝试过使用facet功能? Facet组记录基于完全匹​​配。您可以观看those video on faceting and data profiling