我正在寻找一些与MS SQL Server兼容的重复数据删除软件。我有一个相当广泛和凌乱的表,其中包含来自世界各地的所有不同语言的地址。该表被设置为处理作为父/子记录的欺骗,因此需要一些处理匹配的功能(即不仅仅是删除欺骗)。
编辑:这是结构
ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City | StateProvinceCode | CountryCode | PhoneNumber
MasterID
对每条记录都是唯一的。
ParentID
包含每个条目的父记录的MasterID
,父记录是MasterID = ParentID
的位置。
CountryCode
是两个字母的ISO国家/地区代码(不是电话代码)。
答案 0 :(得分:2)
众所周知,地址重复很难追踪。写入一个地址大约有10种有效的方法,这可能会导致问题。
事实上,您有一些业务规则允许重复某些时间让我觉得您可能最好不要使用自己的软件来找到不可接受的欺骗并删除它们。
在过去,我通过地址通过免费的地理编码服务(例如Google的地图API)并查找彼此之间(10英尺或以上)的特定阈值内的点来完成地址。此时,您可以确定它是否符合“不可接受的重复”并将其删除。
要找到坐标之间的距离,我建议找到Great Circle Distance。祝你好运!