我正在使用Open Refine清理工作表(.csv)中的某些地址。如何在列中聚类完全匹配?似乎聚类算法将聚类几乎相似但仅在数量上不同的地址。例如:
56, LORONG RENGAS, SELANGOR
76, LORONG RENGAS, SELANGOR
90, LORONG RENGAS, SELANGOR
76, lorong rengas, selangor
56, LORONG RENGAS, SELANGOR
如何根据完全匹配使用OpenRefine对这些地址进行聚类?问题听起来很愚蠢,但我对这件事感到失望。
由于
答案 0 :(得分:1)
您是否尝试过使用facet功能? Facet组记录基于完全匹配。您可以观看those video on faceting and data profiling。