loadHTMLFile无法在重定向页面上工作

时间:2014-02-07 03:23:20

标签: php curl web-crawler

我一直在试验loadHTMLfile。它在大多数情况下运行良好,但在许多情况下都失败了。我想知道是否有一些解决以下问题的工作。

很多时候,如果(例如,提供给该函数的URL)为:loadHTMLfile,并且当这样的URL输入到浏览器地址栏时,www.somedomain.com将失败,它将重定向到www.somedomain.com/page/default.asp呈现之前。

webcrawler如何克服这个问题?有没有办法使用某些PHP函数,如loadHTMLfile来加载在向服务器发出请求后呈现的文档的HTML文件,并且所有重定向都会发生? (基本上模拟通过任何浏览器地址栏访问URL的用户)

我感谢任何建议,提前谢谢!

1 个答案:

答案 0 :(得分:1)

//without following redirects
$ch = curl_init('http://google.com');
curl_setopt_array($ch, array(
    CURLOPT_RETURNTRANSFER => true
    CURLOPT_ENCODING => 'gzip, deflate'
));
$content = curl_exec($ch);
echo $content;

//with following redirects
$ch = curl_init('http://google.com');
curl_setopt_array($ch, array(
    CURLOPT_RETURNTRANSFER => true
    CURLOPT_ENCODING => 'gzip, deflate',
    CURLOPT_FOLLOWLOCATION => true,
));
$content = curl_exec($ch);
echo $content;