使用Excel 2010和Microsoft"模糊查找"添加以比较2个工作表中的列。第一个工作表有大约48,000行(x 3列),第二个工作表有大约23,000行(x 5列)。 "模糊查找"比较每个&的一列。返回两者之间的相似性。
模糊查找似乎没有问题,结果 - 在大多数情况下 - 似乎是正确的。例如:
一个工作表中的 W2-NK22/16
显示与W2NK2216
的相似度为0.97。
但并非在所有情况下。有些我希望有一定程度的相似性,而不是由插件返回0.000。例如:
761689700000
应与
有某种程度的相似性。761689700000EN4239
但模糊查找添加为它返回 0.000 。两个字段都格式化为文本。它们之前或之后都没有空格,前12个字符是相同的。
我已经卸载了&重新安装加载项,并使用默认设置。我改变的唯一其他模糊查找设置是在Configure - >中。全局 - UseApproximateIndexing。我把它设置为False和True都没有影响。
我有数百个像上面那样显示0.000相似性的例子,但在检查时似乎非常相似。之前和之前的行之后他们表现出不同程度的相似性。
任何关于为什么它似乎无法正常运作的想法或想法,或者更好的方式来做这种近似匹配将不胜感激。
答案 0 :(得分:1)
即使此案例为2年,也要尝试添加内容。希望其他人可以使用它。
对于转换,标记化等 - 查看安装模糊查找的同一文件夹。有一个名为Portfolio.xlsx的示例文件和相应的Readme.docx文件。这些都非常有帮助。坦率地说,模糊查找加载项的文档非常糟糕(但它是免费的)。自述文件讨论了一个名为“EditTransformationProvider”的权利,可能有助于解决这类问题。
我已经在我的工作中对几个进程实现了模糊,并且在Excel中工作时节省了数百个工时。这不是开玩笑。