合并附近重复的访问文件

时间:2019-02-12 01:06:07

标签: sql ms-access

我正在使用一个旧的Access数据库(.mdb),该数据库已因OneDrive中的故障而被复制。我有用户将记录(一次记录一次)添加到便携式计算机和台式机上的数据库中。有时,笔记本电脑用户在不在线时尝试将数据库保存到OneDrive,然后台式机用户打开数据库的旧版本并开始进行更改。最终结果是OneDrive创建了.mdb文件的两个版本:便携式计算机的原始版本和新版本。我假设用户都在添加数据(而不是删除数据),试图将这两个版本合并为一个。

最好的方法是将便携式计算机数据库导入原始数据库,并对每个表运行合并查询,然后对它进行重复数据删除吗?还是有更好的方法?

1 个答案:

答案 0 :(得分:1)

很明显,近重复和重复是完全不同的两件事。查找并消除虚假信息非常容易。寻找附近的骗子要困难得多! SQL有一个'Like'语句,但是不会发现诸如'Microsoft'和'Micorsoft'之类的差异。请查看下面的链接,了解一种可能的解决方案。

http://www.accessmvp.com/TomVanStiphout/Simil.htm

如果这对您不起作用,则需要考虑一种替代方法,也许Python可以为您解决。如果只有几个带有“问题”的表,则可以导出受影响的表,使用另一种技术(如Python)清除它们,然后导入“清除的”数据集。请参阅下面的链接以获取一些想法。

https://bergvca.github.io/2017/10/14/super-fast-string-matching.html

此外,R具有一些用于查找接近匹配项的功能,并且像Python一样,R是完全免费的。有关如何进行操作的其他一些想法,请参见下面的链接。

https://github.com/ColinFay/tidystringdist

我不确定使用此类工具的最佳工具,但是只要有开放的胸怀和一点点的努力,您就可以做自己想做的事情。