Question

抓取http://www.mfinante.ro/infocodfiscal.html?cod=299无效。它被重定向到其他位置。但为什么呢？

<?php
$url = 'http://www.mfinante.ro/infocodfiscal.html?cod=299';
$agent= 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_ENCODING ,"");
curl_setopt($curl, CURLOPT_USERAGENT, $agent);
$html = curl_exec($curl);
$redirectURL = curl_getinfo($curl,CURLINFO_EFFECTIVE_URL );
curl_close($curl);
echo $html;
?>

我无法理解为什么会这样。

Answer 1

您可以使用htmlspecialchars()获取响应的源代码

echo htmlspecialchars($html);

某处可能存在javascript或元重定向。我的JS太穷了，我无法真正帮助你。

如果你能找到，你可以建立一个正则表达式来查找URL，然后获取它的内容。

使用cURL请求刮取网站请求不读取HTML代码

1 个答案: