Question

如何在此preg_replace中忽略html标记。我有搜索的foreach函数，所以如果有人搜索“apple span”，preg_replace也会对span和html断点应用span：

preg_replace("/($keyword)/i","<span class=\"search_hightlight\">$1</span>",$str);

提前致谢！

Answer 1

我假设您应该基于DOMDocument和DOMXPath而不是使用正则表达式来创建函数。即使那些功能非常强大，您也会遇到类似于您所描述的问题，而这些问题并非（总是）通过正则表达式轻松而强大地解决。

一般的说法是：不要用正则表达式解析HTML。

记住这一点是一个很好的规则，尽管它与任何规则一样，并不总是适用，但值得一提的是。

XPath允许您查找仅包含文本中所有搜索词的所有文本，忽略所有XML元素。

然后你只需将这些文本包装到<span>中就可以了。

编辑：最后一些代码;）

首先，它使用xpath来查找包含搜索文本的元素。我的查询看起来像这样，这可能写得更好，我不是超级xpath pro：

'//*[contains(., "'.$search.'")]/*[FALSE = contains(., "'.$search.'")]/..'

$search包含要搜索的文字，不包含任何"（引用）字符（这会破坏它，请参阅Cleaning/sanitizing xpath attributes以获取解决方法你需要报价）。

此查询将返回包含文本节点的所有父节点，这些节点组合在一起将是一个包含搜索词的字符串。

因为这样的列表不容易按原样进行处理，所以我创建了一个TextRange类来表示DOMText个节点的列表。在文本节点列表上执行字符串操作非常有用，就好像它们是一个字符串一样。

这是例程的基础骨架：

$str = '...'; # some XML

$search = 'text that span';

printf("Searching for: (%d) '%s'\n", strlen($search), $search);

$doc = new DOMDocument;
$doc->loadXML($str);
$xp = new DOMXPath($doc);

$anchor = $doc->getElementsByTagName('body')->item(0);
if (!$anchor)
{
    throw new Exception('Anchor element not found.');
}

// search elements that contain the search-text
$r = $xp->query('//*[contains(., "'.$search.'")]/*[FALSE = contains(., "'.$search.'")]/..', $anchor);
if (!$r)
{
    throw new Exception('XPath failed.');
}

// process search results
foreach($r as $i => $node)
{   
    $textNodes = $xp->query('.//child::text()', $node);

    // extract $search textnode ranges, create fitting nodes if necessary
    $range = new TextRange($textNodes);        
    $ranges = array();
    while(FALSE !== $start = strpos($range, $search))
    {
        $base = $range->split($start);
        $range = $base->split(strlen($search));
        $ranges[] = $base;
    };

    // wrap every each matching textnode
    foreach($ranges as $range)
    {
        foreach($range->getNodes() as $node)
        {
            $span = $doc->createElement('span');
            $span->setAttribute('class', 'search_hightlight');
            $node = $node->parentNode->replaceChild($span, $node);
            $span->appendChild($node);
        }
    }
}

对于我的示例XML：

<html>
    <body>
        This is some <span>text</span> that span across a page to search in.
    and more text that span</body>
</html>

它产生以下结果：

<html>
    <body>
        This is some <span><span class="search_hightlight">text</span></span><span class="search_hightlight"> that span</span> across a page to search in.
    and more <span class="search_hightlight">text that span</span></body>
</html>

这表明这甚至允许查找分布在多个标签上的文本。对于正则表达式来说，这并不容易。

您可以在此处找到完整的代码：http://codepad.viper-7.com/U4bxbe（包括我从答案示例中提取的TextRange课程。）

由于该网站使用的旧版LIBXML版本，它在viper键盘上无法正常工作。它适用于我的LIBXML版本20707.我创建了一个关于此问题的相关问题：XPath query result order。

警告提示：此示例使用二进制字符串搜索（strpos）以及使用DOMText::splitText功能拆分文本节点的相关偏移量。这可能导致错误的偏移，因为函数需要UTF-8字符偏移。正确的方法是使用mb_strpos获取基于UTF-8的值。

该示例无论如何都有效，因为它仅使用US-ASCII与示例数据具有相同的UTF-8偏移量。

对于现实生活情况，$search字符串应采用UTF-8编码，并且应使用mb_strpos代替strpos：

 while(FALSE !== $start = mb_strpos($range, $search, 0, 'UTF-8'))

忽略preg_replace中的html标记

1 个答案: