表单提交多重重定向

时间:2017-10-27 05:20:23

标签: php web-crawler goutte data-scrubbing

我正在尝试从网站获取数据,一旦您提交表单,它就会重定向到一个加载页面,该页面将被设置为自动重定向到最终结果页面。问题是爬虫只获取加载页面的数据,并没有完全到达我实际需要的最终结果页面。有人可以告诉我如何实现这一目标吗?如果不可能那么可以采用另一种方法来做到这一点?

1 个答案:

答案 0 :(得分:0)

如果您正在使用curl,可以尝试以下操作:

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

如果您仍未通过加载页面,则可能不是http重定向。

在这种情况下,您必须手动解析目标位置。很多网站都使用元刷新标记来加载这些页面。寻找类似于以下内容的东西:

<meta http-equiv="refresh" content="5; url=http://example.com/" />

您可以使用正则表达式或任何用于php的dom解析库轻松解析上述内容。

另一种可能性是javascript重定向。在源代码中查找包含window.location的行。