搜刮网站以(真的)模拟用户请求

时间:2019-04-24 06:34:36

标签: curl web-scraping goutte

我正在尝试删除一个网站。我一直在使用其他网站的Goutte或CURL方法,而没有任何问题(在PHP中)。但是此站点正在抵抗;-)

由于我的典型方法不起作用,我尝试转到“开发人员的网络”标签并复制由请求生成的CURL命令(包括所有内容,Cookie,所有标头等),以获取前5页搜索结果。

我已经分析了请求,唯一改变的是“ page”参数,仅此而已。

问题出在这里:如果我在控制台中运行5个CURL命令(每10秒运行一次),则在第3或第4个网站正在响应一个网页,告知“也许我是机器人” XD

也许他们有一个Web服务器模块或一些代码块,它们阻止了来自IP或浏览器cookie的太多请求...但是,问题是,如果我使用浏览器(Chrome或Firefox)进行操作,并模拟加载这5个结果页面(每10秒再次加载一次),我可以毫无问题地加载它们。

因此,问题是...浏览器做了哪些我无法在Goutte甚至CURL生成的命令中无法复制的操作?

我想讨论这个问题,而不是只关注网站本身,因为这不是我在这个网站上发现的东西,而是我有时在其他网站上看到的东西。

1 个答案:

答案 0 :(得分:0)

  

我已经分析了请求,唯一改变的是“页面”   参数,没别的。

您可以与我们分享请求吗? (如果需要,可隐藏敏感数据)。

否则,建议您查看user_agent标题