使用cURL请求刮取网站请求不读取HTML代码

时间:2015-07-16 18:00:55

标签: php web-crawler

抓取http://www.mfinante.ro/infocodfiscal.html?cod=299无效。 它被重定向到其他位置。但为什么呢?

<?php
$url = 'http://www.mfinante.ro/infocodfiscal.html?cod=299';
$agent= 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_ENCODING ,"");
curl_setopt($curl, CURLOPT_USERAGENT, $agent);
$html = curl_exec($curl);
$redirectURL = curl_getinfo($curl,CURLINFO_EFFECTIVE_URL );
curl_close($curl);
echo $html;
?>

我无法理解为什么会这样。

1 个答案:

答案 0 :(得分:0)

您可以使用htmlspecialchars()获取响应的源代码

echo htmlspecialchars($html);

某处可能存在javascript或元重定向。我的JS太穷了,我无法真正帮助你。

如果你能找到,你可以建立一个正则表达式来查找URL,然后获取它的内容。