我想将两个具有多个相似但并不总是匹配的列的表联接起来。这两个表都有某种类型的唯一标识符,但记录的唯一性不到50%,并且在可用时,其准确度仅为80%。我尝试创建自己的唯一标识符,但问题是这些列中的每一个都可能略有不同,丢失或不准确。所以我想对此采取一种概率方法。输出百分比匹配的东西。 尝试匹配后,我有来自表1和表2的示例数据(实际数据具有接近一百万的列)
表1具有:
唯一ID 1:输入40%的时间,准确输入80%的时间 自动模式:输入的准确率100%和98% 城市:输入100%和100%准确 发货编号:输入的准确度为40%和70% 日期:输入的准确率100%和98% 事件类型:输入的准确度为100%和98% 详细事件1:输入100%的手动文字