我们有一个庞大的表格,其中一个列包含例如在第1行 1.(((名字:亚当或名字:尼尔)和姓氏:李))和类别:“法律”和类型:个人 在同一列的第2行 2.(((名字:亚当*或者名字:尼尔)和姓氏:李))和类别:“法律”和类型:组织
同样,很少有其他类型的查询字符串最终用于查询外部服务。
问题基于我必须对此表中的重复项进行分组和删除的某些条件。
确定不同行中的字符串分组的规则很少。其中一个是如果名字和姓氏相同则忽略类别和类型值,因此上面的两行将被分组为一行。有大约一百万行。比较字符串和进行分组并不是一个优雅的解决方案。使用sql可能是最好的解决方案。