查找类似的记录

时间:2013-12-20 09:11:40

标签: powershell qlikview

我有一个大约800,000个ID号码的数据库(每个11或13位数字)。

然后我列出了几千个用作参考的ID号,但它们与数据库上的ID号不匹配 - 主要是由于客户的手指错误。这通常意味着一个数字可以被遗漏或添加或不正确。

我希望根据“类似”的身份证号码进行匹配 - 最好的方法是什么?

我非常精通PowerShell和QLikView,但不确定使用哪个。 Excel因记录数量而退出。

1 个答案:

答案 0 :(得分:1)

这个问题在数据仓库方面非常有名。有一些数据质量解决方案可以找出这些错误,但没有工具可以找出每一个错误。

您确定所有看起来正确的的ID 实际上是否正确?也就是说,你能说出所有比赛都是好的而不是意外地提供比赛吗?考虑一个错字或几个拼写错误确实会创建有效但不正确的ID的情况。

非匹配的第二部分可以通过approximate string matches在某种程度上解决。也就是说,不要将ID视为tera周围的值,而是考虑长度为11或13个字符的字符串。通过计算Levenshtein distances,您或许可以找出至少一些拼写错误。

即使使用模糊搜索,我担心您无法修复所有损坏的ID代码,除非代码具有某种内置校验和或数字形式组。也就是说,数字1-3标识某些内容,4-7标识其他内容,依此类推。通过查找具有无意义子组的ID,您可以找出哪个子组有错误。