我有:
第二个数字相似,但不等于第一个数字。 这两个数字都有效。
我想计算第二个数字实际上是第一个数字的输入错误的可能性。
此类错误可能包括:
有没有人知道这种算法/代码的存在吗?
修改
我不是在寻找一般的字符串相似度算法。我正在寻找一种针对人类数字输入错误优化的算法,或者针对该主题的一些研究。
答案 0 :(得分:3)
有几个algorithms to measure a string similarity。
您可以实现Levenshtein distance或Damerau-Levenshtein距离的某种变体,以不同的方式对错误类型进行评分。
答案 1 :(得分:0)
将数字视为数字序列并计算两个数字之间的相似比。
2.0*M / T.
其中T是两个数字中的位数
M是2个数字中匹配的数量
相似比为0.6及以上意味着2个数字相似
请注意,如果数字相同,则比率为1,如果数字相同,则比率为0 他们没有共同点。