我正在开展一个抓取项目,以从网站中提取网页数据。我制作了一个脚本来浏览URL并解析HTML内容并将结构化内容放入我的数据库。脚本工作正常,但最近脚本卡住了,并且在调查时发现目标站点阻止了我们的IP。 / p>
我正在为这个项目使用PHP / CURL,现在我收到了一个 403错误 - 禁止访问,Web请求出错。 这影响了我的脚本的工作,每次我收到访问限制错误时,都无法从Web请求中检索任何页面。
我知道要遵循许多拼抢礼仪。由于我们无法预见他们是如何实现安全功能的,因此我对网络请求调用的规范化感到困惑。 我正在研究一个带有弹性IP的亚马逊AWZ实例,因此我对何时/是否会取消我的IP禁令感到困惑。
我听说旋转代理方法要用于抓取,这样目标服务器就不会经常阻止你。但我不确定它的实现。
任何帮助都将受到高度赞赏。如有必要,我可以提供任何其他信息。