我在db列中有人名(名字,姓氏和姓氏)。 数据未满,例如某些行
我需要一个算法来显示一组中的一组行,这将表明它是同一个人,我会去手动删除它们除了一个。
这些数据非常具体,名称 NOT 重复,所以如果我们有John,Jonh Smihtm和John Smith,这肯定是同一个人,我会去手动删除除了最后一个。
我需要在可能性组中显示它们。所以应该有一个非常可能的团体是同一个人(John Smith,Jonh Smit),那么应该有一个可能同一个人的集合(John,Johnny),以及可能同一个人(Jo,Jonathan)的集合。
我对数据挖掘和集群相对较新,所以请告诉我一些算法以及如何开始使用。
答案 0 :(得分:2)
不使用群集。它会产生很多误报。它会认为“Sam”和“Pam”高度相似。
而是查看拼写校正,或定义Levenshtein距离阈值。但是,考虑到错字行为的东西比这种本土字母方法更有效。