编辑距离相似度sas?

时间:2014-11-18 16:19:18

标签: sas

我在表V_tablas.arreglo(列 - > domainsBad)中有一个域列表:    @hotmai.es @ghotmail.es @hotmaol.com @hotmai.com @otmail.com.....etc(more than 10k) 并且需要将此域名更正为" @ hotmail.com" 我的问题是关于oracle的EDIT_DISTANCE_SIMILARITY(模糊逻辑)获取'返回0到100之间的整数,其中0表示完全没有相似性,100表示​​完全匹配'它可以吗?

2 个答案:

答案 0 :(得分:1)

SAS至少有两个函数用于计算两个字符串之间的编辑距离:

已编辑,一般编辑距离: http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206133.htm

Complev,Levenshtein距离: http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206137.htm

答案 1 :(得分:0)

您可以使用Levenshtein距离算法(http://en.wikipedia.org/wiki/Levenshtein_distance)计算出将源转换为目标字符串的编辑次数。

本答案中描述了SQL中的实现:

Levenshtein distance in T-SQL