找到页面中的所有href并用链接维护以前的链接替换 ​​- PHP

时间:2012-06-27 22:15:13

标签: php hyperlink text-processing

我正在尝试在网页上找到所有href链接,并用我自己的代理链接替换该链接。

例如

<a href="http://www.google.com">Google</a>

需要

<a href="http://www.example.com/?loadpage=http://www.google.com">Google</a>

3 个答案:

答案 0 :(得分:6)

使用PHP的DomDocument来解析页面

$doc = new DOMDocument();

// load the string into the DOM (this is your page's HTML), see below for more info
$doc->loadHTML('<a href="http://www.google.com">Google</a>');

//Loop through each <a> tag in the dom and change the href property
foreach($doc->getElementsByTagName('a') as $anchor) {
    $link = $anchor->getAttribute('href');
    $link = 'http://www.example.com/?loadpage='.urlencode($link);
    $anchor->setAttribute('href', $link);
}
echo $doc->saveHTML();

请在此处查看:http://codepad.org/9enqx3Rv

如果您没有将HTML作为字符串,则可以使用cUrl(docs)来抓取HTML,或者您可以使用loadHTMLFile的{​​{1}}方法

文档

答案 1 :(得分:0)

如果您希望将链接替换为jQuery,您还可以执行以下操作,这是另一种选择:

$(document).find('a').each(function(key, element){
   curValue = element.attr('href');
   element.attr('href', 'http://www.example.com?loadpage='+curValue);

});

然而,更安全的方式是在php offcourse中进行。

答案 2 :(得分:-1)

我能想到的最简单的方法:

$loader = "http://www.example.com?loadpage=";
$page_contents = str_ireplace(array('href="', "href='"), array('href="'.$loader, "href='".$loader), $page_contents);

但是这可能会包含一些包含url的问题?或者&amp ;.或者,如果文档的文本(不是代码)包含href =“