在分号后插入空格,除非它是HTML实体的一部分

时间:2012-04-04 20:40:13

标签: php regex apache

我试图在每个分号后插入一个空格,除非分号是HTML实体的一部分。这里的例子很简短,但我的字符串可能很长,有几个分号(或没有)。

Coca‑Cola =>     Coca‑Cola  (‑ is a non-breaking hyphen)
Beverage;Food;Music => Beverage; Food; Music

我发现以下正则表达式可以解决短字符串的问题:

<?php
$a[] = 'Coca&#8209;Cola';
$a[] = 'Beverage;Food;Music';
$regexp = '/(?:&#?\w+;|[^;])+/';
foreach ($a as $str) {
    echo ltrim(preg_replace($regexp, ' $0', $str)).'<br>';
}
?>

但是,如果字符串有点大,上面的preg_replace实际上会崩溃我的Apache服务器(在页面加载时重置了与服务器的连接。)将以下代码添加到上面的示例代码中:

$a[] = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit. '.
   'In blandit metus arcu. Fusce eu orci nulla, in interdum risus. '.
   'Maecenas ut velit turpis, eu pretium libero. Integer molestie '.
   'faucibus magna sagittis posuere. Morbi volutpat luctus turpis, '.
   'in pretium augue pellentesque quis. Cras tempor, sem suscipit '.
   'dapibus lacinia, dolor sapien ultrices est, eget laoreet nibh '.
   'ligula at massa. Cum sociis natoque penatibus et magnis dis '.
   'parturient montes, nascetur ridiculus mus. Phasellus nulla '.
   'dolor, placerat non sem. Proin tempor tempus erat, facilisis '.
   'euismod lectus pharetra vel. Etiam faucibus, lectus a '.
   'scelerisque dignissim, odio turpis commodo massa, vitae '.
   'tincidunt ante sapien non neque. Proin eleifend, lacus et '.
   'luctus pellentesque;odio felis.';

上面的代码(使用大字符串)会崩溃Apache但是如果我在命令行上运行PHP则会有效。

在我的程序的其他地方,我在更大的字符串上使用preg_replace没有问题,所以我猜测正则表达式压倒了PHP / Apache。

那么,有没有办法'修复'正则表达式,所以它适用于具有大字符串的Apache,或者还有另一种更安全的方法吗?

如果有任何帮助,我在Windows XP SP3上使用PHP 5.2.17和Apache 2.0.64。 (不幸的是,升级PHP或Apache现在不是一种选择。)

3 个答案:

答案 0 :(得分:2)

我会建议这个匹配表达式:

\b(?<!&)(?<!&#)\w+;

...匹配一系列字符(字母,数字和下划线),前面没有&符号(或符号后跟哈希符号)但后跟分号。

它分解为:

\b          # assert that this is a word boundary
(?<!        # look behind and assert that you cannot match
 &          # an ampersand
)           # end lookbehind
(?<!        # look behind and assert that you cannot match
 &#         # an ampersand followed by a hash symbol
)           # end lookbehind
\w+         # match one or more word characters
;           # match a semicolon

替换为字符串'$0 '

如果这不适合你,请告诉我

当然,您也可以使用[a-zA-Z0-9]代替\w来避免匹配分号,但我认为这不会给您带来任何麻烦

此外,可能也需要转义哈希符号(因为这是正则表达式注释符号),如下所示:

\b(?<!&)(?<!&\#)\w+;

编辑不确定,但我猜测将字边界放在开头是为了提高效率(因此不太可能使服务器崩溃),所以我改变了在表达式和分解......

编辑2 ...以及有关您的表达式可能导致服务器崩溃的更多信息:Catastrophic Backtracking - 我认为这适用( ?)嗯......尽管如此,还是很好的信息

FINAL EDIT 如果您只想在分号之后添加空格,如果之后还没有空格(即在{{1}的情况下添加一个空格但不是pellentesque;odio)的情况,那么在末尾添加一个额外的前瞻,这将防止添加额外的不必要的空格:

pellentesque; odio

答案 1 :(得分:0)

你可以使用负面的后卫:

preg_replace('/(?<=[^\d]);([^\s])/', '; \1', $text)

没有经过测试,因为我手头没有电脑,但是这个或者它的一点点变化都应该有效。

答案 2 :(得分:0)

有了这样的问题,回调可能会有所帮助。

(&(?:[A-Za-z_:][\w:.-]*|\#(?:[0-9]+|x[0-9a-fA-F]+)))?;

扩展

(          # Capture buffer 1
   &                              # Ampersand '&'
   (?: [A-Za-z_:][\w:.-]*         # normal words
     | \#                         # OR, code '#'
       (?: [0-9]+                       # decimal
         | x[0-9a-fA-F]+                # OR, hex 'x'
       )
   )
)?         # End capture buffer 1, optional
;          # Semicolon ';'

测试用例http://ideone.com/xYrpg

<?php

$line = '
  Coca&#8209;Cola
  Beverage;Food;Music
';

$line = preg_replace_callback(
        '/(&(?:[A-Za-z_:][\w:.-]*|\#(?:[0-9]+|x[0-9a-fA-F]+)))?;/',
        create_function(
            '$matches',
            'if ($matches[1])
               return $matches[0];
             return $matches[0]." ";'
        ),
        $line
    );
echo $line;
?>