为了一个卑鄙的目的打破CAPTCHAs

时间:2009-11-17 22:24:55

标签: accessibility captcha blind

要求用户阅读扭曲文本的

CAPTCHAs对于有视力的人来说是好的,但对于那些失明或有其他残疾的人来说是一个可怕的障碍。音频备选方案偶尔可用,但仍然无法帮助那些聋哑人和盲人,并且很难使用屏幕阅读器(已经在向您朗读文字)。

有两种解决方案使用人类来代表用户解决CAPTCHA,例如WebVisiumSolona,但这些解决方案依赖于志愿者操作员的可用性(例如,Solona)显然只有一名志愿者,所以当你需要帮助时,你必须希望他醒着。)

在我看来,盲人所需的CAPTCHA解决方案的数量非常低 - 我猜想在像英国这样人口稠密的国家每天不到几百人。这意味着,与想要在短时间内多次执行动作的坏人不同,为盲人提供的CAPTCHA援助服务可以承担相当大的计算资源 - 例如,Amazon EC2中的计算机云 - 识别所呈现的文本。

我的问题是:假设你不太关心速度,并且你有很多可用的计算机,是否有算法可以解决今天常见的文本失真CAPTCHA,例如{ {3}}?或者即使有大量的资源和时间,这些问题是否真的难以处理?

一些注意事项:

  1. 此时,我的问题只是理论上的问题,但很明显,任何此类服务都必须谨慎控制访问权限,以阻止垃圾邮件发送者。也许只有注册的盲人才会被允许使用它。

  2. 几年前我发现reCaptcha使用的算法在一台计算机上运行几秒钟。我在问现代CAPTCHA是否可以被打破,可能更慢,资源更多。

  3. 我知道会出现一些新的CAPTCHA类型,要求用户an old Yahoo CAPTCHA was brokenidentify kittens。这些还没有普及,所以我现在只是询问文本失真。

5 个答案:

答案 0 :(得分:4)

基本上解决文本失真CAPTCHA包含三个单独的步骤:

  1. 找出有趣的部分在哪里
  2. 将文本细分为单个字母
  3. 识别字母
  4. 剩下的唯一一个对计算机来说非常困难的问题是第二个问题。第一个通常不是很难,除非你碰巧偶然发现the CAPTCHA from hell。第三种方法是通过比人类更好的成功率的计算机解决的。

    有关了解CAPTCHA如何被破坏的有趣网站是OCR Research Team的网站。

答案 1 :(得分:2)

答案 2 :(得分:1)

我对你的问题的回答“即使有大量的资源和时间,这些问题真的难以解决吗?”要指出这就是CAPTCHAs工作的原因。

我的理解是CAPTCHA的目的是证明你是人而不是垃圾邮件机器人。 reCAPTCHAs是对这一主题的一种新颖看法,因为它们采用的图像代表了OCR(光学字符识别)引擎无法解析的文本。在这种情况下,人和机器之间的区别在于专用算法试图解释该图像并且失败而“正常”人具有以一致的人类方式解释文本的内在能力。话虽如此,未来我们希望有人会提出更好的OCR引擎,以便在数字化世界信息时减少人为干预。我们希望有人能够为这个特殊问题找到一个易处理的解决方案。

从你试图让盲人更容易获得CAPTCHA的观点来看 - 他们仍然需要证明他们是人而不是垃圾邮件机器人 - 社区需要意识到这个问题,并找到一种方法来以不那么以视觉为中心的方式识别人。

答案 3 :(得分:0)

CAPTCHA的引入无疑使视障人士无法访问网页,我同意你的看法,认为这是一个值得关注和关注的重大问题。然而,虽然CAPTCHA可以并且在流行的网站上被不一致地绕过,但我认为这对于那些有需要的人来说并不是一个可行的长期解决方案。事实上,CAPTCHA变体目前在Facebook,Google,MySpace等网站上呈现的那一天可以被可靠且持续地打破,这一天它们将变得过时并被放弃用于相同或全新解决方案的更强变体(就像你一样)暗示,在图片中区分猫和狗是一种流行的替代趋势)。

谈到在线辅助功能,我认为残疾人现在最需要的是宣传。与软件公司,开源组织和标准组织联系的人越多,并且就此需求发表意见,就会提高认识,并且(希望)会代表开发社区采取更多行动。最终,看到谷歌或Facebook等网站为视障用户提供替代访问方式会很棒。

抛开理想主义,我认为追求像CAPTCHA志愿者网络所提到的其他途径是有效的,甚至可能为相关残疾人士开发类似OpenID的东西作为通用表格验证通行证。

至于你问题的技术方面,我认为单独使用额外的处理能力不会让你可靠而持续地打破CAPTCHA。垃圾邮件中有很多钱,你可以确定,阴暗的搜索引擎优化公司和垃圾邮件发送者都拥有大量的服务器。正如JohannesRössel所提到的,如果您想了解更多关于如何完成以及技术难点所在,请研究光学字符识别(OCR)并查看在高流量站点上发生的各种数字/字母偏移。

答案 4 :(得分:0)

This related SO question有很多好主意,包括声称使用多个OCR并投票的DEFCON talk许多简单的CAPTCHA。这表明了一种候选解决方案方法:将问题分布在多个服务器上,每个服务器并行运行一个或多个OCR工具,收集结果,并采用最流行的答案。欢迎评论。