我在表V_tablas.arreglo(列 - > domainsBad)中有一个域列表:
@hotmai.es
@ghotmail.es
@hotmaol.com
@hotmai.com
@otmail.com.....etc(more than 10k)
并且需要将此域名更正为" @ hotmail.com"
我的问题是关于oracle的EDIT_DISTANCE_SIMILARITY(模糊逻辑)获取'返回0到100之间的整数,其中0表示完全没有相似性,100表示完全匹配'它可以吗?
答案 0 :(得分:1)
SAS至少有两个函数用于计算两个字符串之间的编辑距离:
已编辑,一般编辑距离: http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206133.htm
Complev,Levenshtein距离: http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206137.htm
答案 1 :(得分:0)
您可以使用Levenshtein距离算法(http://en.wikipedia.org/wiki/Levenshtein_distance)计算出将源转换为目标字符串的编辑次数。
本答案中描述了SQL中的实现: