使用模糊匹配量化唯一记录数

时间:2019-03-06 03:59:21

标签: sql sql-server

我目前正在使用SQL Server中的mds.mdq.similarity函数内部联接客户表,以模糊匹配客户名称记录:

Select a.CUST_ID as a_CUST_ID
    ,a.CU_NAME as a_CU_NAME
    ,b.CUST_ID as b_CUST_ID
    ,b.CU_NAME as b_CU_NAME
    from #tmp a
    inner join #tmp b 
    on a.CUST_ID > b.CUST_ID
        and (mds.mdq.Similarity (a.CU_NAME, b.CU_NAME, 2, 0, 0)) > 0.9

现在,运行此查询将为我提供以下示例表:

a_CUST_ID   a_CU_NAME   b_CUST_ID   b_CU_NAME
112         abc         111         abbc
113         abc-        111         abbc
111         abbc        110         abc_
112         abc         110         abc_
114         xyz         115         xyz-

我想找到一种从中量化“唯一” CU_NAME数量的方法(“唯一”根据mds.mdq.similarity匹配逻辑)。

在上面的示例中,我们将说110〜111〜112〜113和114〜115。因此,将有2个“唯一”的CU_NAME。预期结果将是:

Number_of_Unique_CU_NAME
2

0 个答案:

没有答案