我正在尝试删除一个网站。我一直在使用其他网站的Goutte或CURL方法,而没有任何问题(在PHP中)。但是此站点正在抵抗;-)
由于我的典型方法不起作用,我尝试转到“开发人员的网络”标签并复制由请求生成的CURL命令(包括所有内容,Cookie,所有标头等),以获取前5页搜索结果。
我已经分析了请求,唯一改变的是“ page”参数,仅此而已。
问题出在这里:如果我在控制台中运行5个CURL命令(每10秒运行一次),则在第3或第4个网站正在响应一个网页,告知“也许我是机器人” XD
也许他们有一个Web服务器模块或一些代码块,它们阻止了来自IP或浏览器cookie的太多请求...但是,问题是,如果我使用浏览器(Chrome或Firefox)进行操作,并模拟加载这5个结果页面(每10秒再次加载一次),我可以毫无问题地加载它们。
因此,问题是...浏览器做了哪些我无法在Goutte甚至CURL生成的命令中无法复制的操作?
我想讨论这个问题,而不是只关注网站本身,因为这不是我在这个网站上发现的东西,而是我有时在其他网站上看到的东西。