通过使用归一化的levenshtein距离函数和trigram相似度函数,比较来自两个数据集的模糊匹配串相似性的记录。计算4种不同的相似性指标: LevCmpSimilarity - 比较复合(连接)字段的Levenshtein相似度的归一化, LevWghSimilarity - 将Levenshtein相似度标准化为所比较的所有单个字段的摘要, TrgWgh和TrgCmp - 与Levenshtein相同,但使用Trigram相似度函数代替Levenshtein,
以下是频率和累积频率的所有四个指标的直方图。
absolute frequencies cummulative frequencies
我的问题是:这些频率分布模式是否可用于自动无监督确定记录匹配接受/拒绝的最佳阈值?如果答案是肯定的,你能建议指导吗?
基本上,levenshtein距离和三元相似度值频率模式是否可以单独用于推导模糊匹配记录链接的最佳阈值?