我目前正在使用SQL Server中的mds.mdq.similarity函数内部联接客户表,以模糊匹配客户名称记录:
Select a.CUST_ID as a_CUST_ID
,a.CU_NAME as a_CU_NAME
,b.CUST_ID as b_CUST_ID
,b.CU_NAME as b_CU_NAME
from #tmp a
inner join #tmp b
on a.CUST_ID > b.CUST_ID
and (mds.mdq.Similarity (a.CU_NAME, b.CU_NAME, 2, 0, 0)) > 0.9
现在,运行此查询将为我提供以下示例表:
a_CUST_ID a_CU_NAME b_CUST_ID b_CU_NAME
112 abc 111 abbc
113 abc- 111 abbc
111 abbc 110 abc_
112 abc 110 abc_
114 xyz 115 xyz-
我想找到一种从中量化“唯一” CU_NAME数量的方法(“唯一”根据mds.mdq.similarity匹配逻辑)。
在上面的示例中,我们将说110〜111〜112〜113和114〜115。因此,将有2个“唯一”的CU_NAME。预期结果将是:
Number_of_Unique_CU_NAME
2