Question

我正在使用DOM来解析字符串。我需要删除span标签及其内容的功能。例如，如果我有：

This is some text that contains photo.
<span class='title'> photobyile</span>

我希望函数返回

This is some text that contains photo.

这就是我的尝试：

    $dom = new domDocument;
    $dom->loadHTML($string);
    $dom->preserveWhiteSpace = false;
    $spans = $dom->getElementsByTagName('span');

    foreach($spans as $span)
    {
        $naslov = $span->nodeValue; 
        echo $naslov;

        $string = preg_replace("/$naslov/", " ", $string);
    }

我知道$span->nodeValue返回span标记的值而不是整个标记，但我不知道如何获得整个标记以及类名。

谢谢， ILE

Answer 1

尝试直接从DOM树中删除跨度。

$dom = new DOMDocument();
$dom->loadHTML($string);
$dom->preserveWhiteSpace = false;

$elements = $dom->getElementsByTagName('span');
while($span = $elements->item(0)) {       
   $span->parentNode->removeChild($span);
}

echo $dom->saveHTML();

Answer 2

@ile - 我遇到了这个问题 - 这是因为foreach迭代器的索引很快就会继续增加，而在DOM上调用removeChild（）似乎也会从DomNodeList（$ spans）中删除节点。因此，对于您删除的每个跨度，nodelist缩小一个元素，然后将其foreach计数器加1。最终结果：它跳过一个跨度。

我确信有更优雅的方式，但这就是我做的方式 - 我将引用从DomNodeList移动到第二个数组，在那里它们不会被removeChild（）操作删除。

    foreach($spans as $span) {
        $nodes[] = $span;
    }
    foreach($nodes as $span) {
        $span->parentNode->removeChild($span);
    }

剥离HTML标记及其内容

2 个答案: