Question

我目前正在使用SQL Server中的mds.mdq.similarity函数内部联接客户表，以模糊匹配客户名称记录：

Select a.CUST_ID as a_CUST_ID
    ,a.CU_NAME as a_CU_NAME
    ,b.CUST_ID as b_CUST_ID
    ,b.CU_NAME as b_CU_NAME
    from #tmp a
    inner join #tmp b 
    on a.CUST_ID > b.CUST_ID
        and (mds.mdq.Similarity (a.CU_NAME, b.CU_NAME, 2, 0, 0)) > 0.9

现在，运行此查询将为我提供以下示例表：

a_CUST_ID   a_CU_NAME   b_CUST_ID   b_CU_NAME
112         abc         111         abbc
113         abc-        111         abbc
111         abbc        110         abc_
112         abc         110         abc_
114         xyz         115         xyz-

我想找到一种从中量化“唯一” CU_NAME数量的方法（“唯一”根据mds.mdq.similarity匹配逻辑）。

在上面的示例中，我们将说110〜111〜112〜113和114〜115。因此，将有2个“唯一”的CU_NAME。预期结果将是：

Number_of_Unique_CU_NAME
2

使用模糊匹配量化唯一记录数

0 个答案: