应用错误收集

如何将机器学习应用于模糊匹配

时间：2017-04-12 10:16:48

标签： algorithm machine-learning fuzzy-comparison record-linkage

假设我有一个MDM系统（主数据管理），其主要应用是检测和防止记录重复。

每次销售代表进入系统中的新客户时，我的MDM平台都会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数并输出相似度得分等。

典型的模糊匹配方案。

我想知道应用机器学习技术来优化匹配输出是否有意义，即以最高精度查找重复项。
它究竟是最有意义的。

优化属性的权重？
通过预测匹配结果来增加算法的置信度？
学习匹配规则，否则我会配置到算法中？
别的什么？

关于这个话题也有this excellent answer但是我不知道那个人是否真的使用了ML。

另外我的理解是，加权模糊匹配已经是一个很好的解决方案，甚至可能从财务角度来看，因为无论何时部署这样的MDM系统，您都必须进行一些分析和预处理，无论是手动编码匹配规则或训练ML算法。

所以我不确定增加ML是否代表重要的价值主张。

任何想法都表示赞赏。

2 个答案:

答案 0 :(得分：3)

使用机器学习的主要优点是节省时间。

如果有足够的时间，您可以手动调整权重并提出对您的特定数据集非常有用的匹配规则。机器学习方法可能难以超越为特定数据集定制的手工制作系统。

然而，手动制作一个好的匹配系统可能需要数天时间。如果您使用现有的ML来匹配工具，例如Dedupe，那么可以在一小时内（包括设置时间）学习好的权重和规则。

因此，如果您已经构建了一个在您的数据上表现良好的匹配系统，则可能不值得研究ML。但是，如果这是一个新的数据项目，那么它几乎肯定会是。

答案 1 :(得分：-1)

传统上，模糊记录匹配软件需要大量用户参与项目参数化和文书审查。用户要么提供各种输入参数和阈值，要么提供匹配的示例，要么为机器学习提供不匹配。在这两种情况下，相当多的用户参与和专业知识是成功分析的先决条件。使用无监督机器学习的主要价值在于让软件自动生成解决方案，无需用户参与。至少有一种这样的模糊匹配软件利用机器学习，称为“ReMaDDer”：http://remaddersoft.wixsite.com/remadder