匹配2个简短描述并返回置信度

时间:2015-05-15 04:28:38

标签: python string fuzzy-comparison

我有一些使用Yodlee从银行获得的数据以及移动设备上相应的交易消息。两者都有一些描述 - 简短说明。

例如 -

@Controller
@RequestMapping("/user")
public class UserController {

    @RequestMapping(method=RequestMethod.POST)
    public ResponseEntity create(@Valid User user, BindingResult bindingResult) {
        try{
            if (bindingResult.hasErrors()) {
                throw new MyCustomException();
            }
        } catch(MyCustomException e){
            //do what ever you want to do with it
        }
        ...
}

如果一个完全在另一个内部,它们可以匹配。但是,有些字符串如

string1 = "tatasky_TPSL MUMBA IND"
string2 = "tatasky_TPSL"

仍然需要匹配。是否有y算法在匹配2个描述时给出置信度?

1 个答案:

答案 0 :(得分:1)

您可能希望使用也称为levenstien distance levenstien distance wikipedia的标准化编辑距离。因此,在获得两个字符串之间的levenstien距离后,您可以通过除以最长字符串的长度(或这两个字符串的平均值)来对其进行标准化。这种规范化的社会可以充当信心。你可以找到一些计算levenstien距离的4-5个python包。您也可以在线试用edit distance calculator

或者,一个简单的解决方案是称为最长公共子序列的算法,可以在这里使用