应用错误收集

我在db列中有人名（名字，姓氏和姓氏）。数据未满，例如某些行

我需要一个算法来显示一组中的一组行，这将表明它是同一个人，我会去手动删除它们除了一个。

这些数据非常具体，名称 NOT 重复，所以如果我们有John，Jonh Smihtm和John Smith，这肯定是同一个人，我会去手动删除除了最后一个。

我需要在可能性组中显示它们。所以应该有一个非常可能的团体是同一个人（John Smith，Jonh Smit），那么应该有一个可能同一个人的集合（John，Johnny），以及可能同一个人（Jo，Jonathan）的集合。

我对数据挖掘和集群相对较新，所以请告诉我一些算法以及如何开始使用。