我正在尝试删除某些链接,具体取决于其ID标记,但保留链接的内容。例如,我想转
Some text goes <a href="http://www.domain.tdl/" id="remove">here</a>
到
Some text goes here
我尝试过使用以下内容。
$dom = new DOMDocument;
$dom->loadHtml(mb_convert_encoding($html, 'HTML-ENTITIES', "UTF-8"));
$xp = new DOMXPath($dom);
foreach($xp->query('//a[contains(@id="remove")]') as $oldNode) {
$revised = strip_tags($oldNode);
}
$revised = mb_substr($dom->saveXML($xp->query('//body')->item(0)), 6, -7, "UTF-8");
echo $revised;
大致取自here,但只是吐出$html
的相同内容。
关于如何实现这一点的任何想法?
答案 0 :(得分:13)
这是我的功能:
function DOMRemove(DOMNode $from) {
$sibling = $from->firstChild;
do {
$next = $sibling->nextSibling;
$from->parentNode->insertBefore($sibling, $from);
} while ($sibling = $next);
$from->parentNode->removeChild($from);
}
所以这个:
$dom->loadHTML('Hello <a href="foo"><span>World</span></a>');
$a = $dom->getElementsByTagName('a')->item(0); // get first
DOMRemove($a);
应该给你:
Hello <span>World</span>
要获取具有特定ID的节点,请使用XPath:
$xpath = new DOMXpath($dom);
$node = $xpath->query('//a[@id="something"]')->item(0); // get first
DOMRemove($node);
答案 1 :(得分:2)
类似于@ netcoder的答案,但使用不同的循环结构和DOMElement方法。
$html = '<html><body>This <a href="http://www.domain.tdl/" id="remove">link</a> was removed.</body></html>';
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//a[@id="remove"]') as $link) {
// Move all link tag content to its parent node just before it.
while($link->hasChildNodes()) {
$child = $link->removeChild($link->firstChild);
$link->parentNode->insertBefore($child, $link);
}
// Remove the link tag.
$link->parentNode->removeChild($link);
}
$html = $dom->saveXML();
答案 2 :(得分:1)
使用强>:
//a[@id='remove']/node()
|
//*[a[@id='remove']]/node()[not(self::a[@id=''remove])]
这将选择属性a
且值id
的所有"remove"
的所有子项以及此a
的所有前后兄弟姐妹本身不是另一个a
} id
属性"remove"