用于聚类名称的算法

时间:2015-02-01 07:23:08

标签: algorithm cluster-analysis spell-checking levenshtein-distance

我在db列中有人名(名字,姓氏和姓氏)。 数据未满,例如某些行

  • 只有名字,姓氏或姓氏。
  • 的顺序不同(姓氏,姓氏)
  • 拼错错误

我需要一个算法来显示一组中的一组行,这将表明它是同一个人,我会去手动删除它们除了一个。

这些数据非常具体,名称 NOT 重复,所以如果我们有John,Jonh Smihtm和John Smith,这肯定是同一个人,我会去手动删除除了最后一个。

我需要在可能性组中显示它们。所以应该有一个非常可能的团体是同一个人(John Smith,Jonh Smit),那么应该有一个可能同一个人的集合(John,Johnny),以及可能同一个人(Jo,Jonathan)的集合。

我对数据挖掘和集群相对较新,所以请告诉我一些算法以及如何开始使用。

1 个答案:

答案 0 :(得分:2)

使用群集。它会产生很多误报。它会认为“Sam”和“Pam”高度相似。

而是查看拼写校正,或定义Levenshtein距离阈值。但是,考虑到错字行为的东西比这种本土字母方法更有效。