确定数字输入错误的概率

时间:2011-03-14 08:29:36

标签: algorithm language-agnostic numeric

我有:

  1. 正确的数字ID,如电话号码/社会安全号码等
  2. 另一个数字,来自某些数据输入表格
  3. 第二个数字相似,但不等于第一个数字。 这两个数字都有效。

    我想计算第二个数字实际上是第一个数字的输入错误的可能性。

    此类错误可能包括:

    • 关闭几位数
    • 转置数字
    • 误解数字(1-7,4-9,3-8,2-5)

    有没有人知道这种算法/代码的存在吗?

    修改

    我不是在寻找一般的字符串相似度算法。我正在寻找一种针对人类数字输入错误优化的算法,或者针对该主题的一些研究。

2 个答案:

答案 0 :(得分:3)

有几个algorithms to measure a string similarity

您可以实现Levenshtein distance或Damerau-Levenshtein距离的某种变体,以不同的方式对错误类型进行评分。

答案 1 :(得分:0)

将数字视为数字序列并计算两个数字之间的相似比。 2.0*M / T. 其中T是两个数字中的位数 M是2个数字中匹配的数量

相似比为0.6及以上意味着2个数字相似

请注意,如果数字相同,则比率为1,如果数字相同,则比率为0 他们没有共同点。