关于常见错误键的任何统计数据?

时间:2010-08-10 02:29:49

标签: language-agnostic statistics

我需要在键盘上找到我正在处理的项目中常见错误键的列表。基本上我需要知道用户试图按什么键以及他们实际按下什么键,以及对这种情况发生频率的比较测量。

通过“比较衡量”,我的意思是我希望能够说知道用户错误输入了“c”键,他们更有可能点击“x”键而不是“v”键(基本上是下面的“共性”栏目。

我的理想列表如下所示,让您了解我在寻找什么。

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

等等......

有没有人遇到过任何可能提供此信息的信誉来源?到目前为止,我没有运气......

4 个答案:

答案 0 :(得分:5)

几年前我实际上不得不研究类似的问题。当我开始这个项目时,我不知道从哪里开始,所以希望我可以在相同的情况下拯救你的其他任何人。

最重要的是,您可以利用在其他领域完成的大量工作。我发现,这些领域中最重要的是域名注册。

例如,网站 DomainTools 有一个“Domain Typo Generator”,它的工作原理是根据父域名生成拼写域名列表你输入。

鉴于专业域名所有者(aks 擅自占地者)占任何注册商业务的很大一部分,很容易看出这个工具的用途是什么(即擅自占地者有兴趣获取常见的错别字高流量域名 - 即使高流量域名的错误率为2%也是拼写域名的大量流量。

此外,我会推荐Microsoft Research对此问题的非常全面的2005 Study

最后,计算语言学中的一个关键概念来源于 Levenshtein距离,称为 Damerau-Levenshtein distance ,它扩展了基础Levenshtein的基本思想是编辑距离以解决人类在键盘上打字的特殊问题。

他1964年的研究论文得出的主要结论是,所有拼写错误的80%可用四种操作中的一种来描述 - 插入,删除,替换单个字符或转换两个字符。

Damerau不仅区分了这四个编辑操作,还表示它们对应于所有人类拼写错误的80%以上。 (我为DL提供的唯一链接是维基百科文章;我之所以这样做是因为我认为这是一个优秀而简短的介绍,它包含DL算法的伪代码,最后文章提供了链接DL的主要在线资源。

答案 1 :(得分:1)

我的iPhone / Touch上最错误的键:

c for f! “在Cridays上,Cred to Crom Crom to Cinland!”

此外,空格键适用于iPhone键盘底行中的任何字母:

“Bob听Z顶和黑尔。”

答案 2 :(得分:0)

我不知道统计数据来源,但似乎有一个很大的区别:(1)有人因为手指定位不佳而击中错误的键,大多数打字员会立即退格并在飞行中纠正,所以关于这些事件的统计数据只能实时捕获,而不是列出大多数拼写纠错器遇到的情况,以及(2)打字员按正确的键但是按错误的顺序(“naem”而不是“name”)因为速度/分心/神经元导致,以及(3)打字员因不知道如何拼写(“维护”而不是“维护”)而错误按键。

对于案例#1,如果the most common letters in English是E,T,A ......那么很可能那些也是最错过的键,按顺序,虽然这不会告诉你哪个像“w”和“r”这样的邻居被击中最多。尝试像“a”这样的行尾键的打字员实际上可能错误地击中了CAPS LOCK,就像错误地击中“s”一样。

就个人而言,这是我经常错过的非alphas,特别是如果狩猎和啄/ / \,{vs [,'vs“,逗号vs期间输入格式化的数字和货币,错过转变并得到8而不是*等等,因为非编码在编程时非常普遍,对于程序员而言,这些案例可能比非程序员更频繁。

答案 3 :(得分:0)

Church和Gale的{p> Probability Scoring for Spelling Correction可能有所帮助。在那篇论文中,作者将拼写错误描述为作者与计算机之间的嘈杂通道。附录中有关于在美联社出版物中看到的拼写错误的表格。每种拼写错误都有一个表格:

  • 缺失
  • 插入
  • 取代
  • 换位

例如,检查插入表,我们可以看到在 l 128次之后 l 被错误地插入(该列中的最高数字)。使用这些表格,您可以使用类似于您想要的数字。