我知道您在想“有很多类似的问题”,但是不,您错了。
的确,有很多问题正在寻找能够获取最后一个URL的PHP代码,我基于这些问题和答案来编写我的代码,但这并不适用于所有情况。
我需要一个始终返回最后一个url的函数(即使有1000个重定向),即使重定向是使用JavaScript,PHP,Apache或其他技术完成的。
我要说的是,在某些情况下,我的代码不会在所有情况下返回最后一个。我已经阅读了很多有关此内容的信息,但没有找到解决方案,这个问题已经存在一个月了,需要您的帮助。
我的代码如下:
function get_real_url($comparator, $url){
$out = "";
$final_url = get_final_url($url);
if(strpos($final_url, 'url=') !== FALSE){ //Si devuelve un string
parse_str($final_url, $out);
if(!empty($out["url"]))
return $out["url"];
else
return false;
}else
return $final_url; //Si devuelve una url completa
}
function get_final_url($url, $timeout = 5)
{
//$url = str_replace( "&", "&", urldecode(trim($url)) );
$cookie = tempnam ("/tmp", "CURLCOOKIE");
$ch = curl_init();
curl_setopt( $ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1" );
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt( $ch, CURLOPT_COOKIEJAR, $cookie );
curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
curl_setopt( $ch, CURLOPT_ENCODING, "" );
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
curl_setopt( $ch, CURLOPT_AUTOREFERER, true );
curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_TIMEOUT, $timeout );
curl_setopt( $ch, CURLOPT_MAXREDIRS, 10 );
$content = curl_exec( $ch );
$response = curl_getinfo( $ch );
curl_close ( $ch );
if ($response['http_code'] == 301 || $response['http_code'] == 302)
{
ini_set("user_agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1");
$headers = @get_headers($response['url']);
if(!$headers) return $url;
$location = "";
foreach($headers as $value)
{
if (substr(strtolower($value), 0, 9) == "location:")
return get_final_url( trim( substr( $value, 9, strlen($value) ) ) );
}
}
if(preg_match("/window\.location\.replace\('(.*)'\)/i", $content, $value) || preg_match("/window\.location\=\"(.*)\"/i", $content, $value))
{
return get_final_url($value[1]);
}
else
{
return $response['url'];
}
}
我应该使用什么技术使我的代码执行(如果需要)JavaScript重定向代码并获取最后一个URL?
答案 0 :(得分:1)
如果您还想检查基于浏览器的重定向,则不应使用PHP。如果您不仅要分析和评估直接嵌入标记中的JS代码,还要分析和评估仅在运行一些JS之后才加载的基于模块的代码,这将变得非常棘手。
为什么不为此使用Selenium或无头浏览器?