来自localhost的file_get_contents()时,请避免使用Captcha身份验证

时间:2013-06-26 19:18:26

标签: web-crawler file-get-contents

对于我的论文工作,我需要从不同的基于文章的网站收集数据。当我在我的localhost脚本的其他网站上使用file_get_contents()时,对于某些网站,它最初几次正常工作。但是,有些站点会在5-10次尝试后显示Captcha身份验证提示以验证未经授权的bot访问,因此我的脚本无法正常运行。

我只想通过我的localhost脚本中的其他站点使用file_get_contents()来获取整页内容。我也尝试设置用户代理,但没有进展。 我用它来设置用户代理:

<?php ini_set("user_agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36"); ?>

当我从localhost使用file_get_contents()很多次从远程网页获取数据时,如何避免这种类型的Captcha身份验证?

1 个答案:

答案 0 :(得分:0)

那会破坏验证码的整个目的,不是吗? Captcha专门设计用于避免像您这样的机器人因请求和表单提交而阻塞系统。