简单的html dom,从博客获取链接

时间:2013-10-29 22:30:22

标签: php dom file-get-contents

我正在尝试使用Simple Html Dom从某些网站获取链接,(file_get_content)

问题是这些链接中的一些使用重定向到实际的帖子,我的脚本一直跟着它发布到帖子但是在我链接到那个帖子的网站上我不希望php回显文件“进程” .php?id = 121“但我希望它返回真实的网址,例如”domain.com/redirected-to-here.html“

脚本看起来像

$html = file_get_html('www.domain.com/post/this-is-a-post.html');
foreach($html->find('div#post a',0) as $linktopost){
    echo $linktopost->href;
}

但这会返回类似

的内容
  

www.domain.com/redirect.php?id=10

所以问题实际上是,如何在重定向后使用Simple html dom解析器返回url?

提前致谢。

1 个答案:

答案 0 :(得分:0)

我使用cURL并使用正则表达式解析位置标题。

$ch = curl_init('www.domain.com/post/this-is-a-post.html');
curl_setopt($ch, CURLOPT_HEADER, TRUE);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
$header_and_html = curl_exec($ch);
preg_match(...);