Question

对于我的论文工作，我需要从不同的基于文章的网站收集数据。当我在我的localhost脚本的其他网站上使用file_get_contents()时，对于某些网站，它最初几次正常工作。但是，有些站点会在5-10次尝试后显示Captcha身份验证提示以验证未经授权的bot访问，因此我的脚本无法正常运行。

我只想通过我的localhost脚本中的其他站点使用file_get_contents()来获取整页内容。我也尝试设置用户代理，但没有进展。我用它来设置用户代理：

<?php ini_set("user_agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36"); ?>

当我从localhost使用file_get_contents()很多次从远程网页获取数据时，如何避免这种类型的Captcha身份验证？

Answer 1

那会破坏验证码的整个目的，不是吗？ Captcha专门设计用于避免像您这样的机器人因请求和表单提交而阻塞系统。

来自localhost的file_get_contents（）时，请避免使用Captcha身份验证

1 个答案: