表情符号替换 - PHP

时间:2012-01-12 03:45:15

标签: php regex string preg-replace

我需要将文本表情符号替换为html图像标记。我编译了以下数据:

private $smile = array(">:]", ":-)", ":)", ":o)", ":]", ":3", ":c)", ":>", "=]", "8)", "=)", ":}", ":^)");
private $laugh = array(">:D", ":-D", ":D", "8-D", "x-D", "X-D", "=-D", "=D", "=-3", "8-)");
private $sad = array(">:[", ":-(", ":(",  ":-c", ":c", ":-<", ":-[", ":[", ":{", ">.>", "<.<", ">.<");
private $wink = array(">;]", ";-)", ";)", "*-)", "*)", ";-]", ";]", ";D", ";^)");
private $tongue = array(">:P", ":-P", ":P", "X-P", "x-p", ":-p", ":p", "=p", ":-Þ", ":Þ", ":-b", ":b", "=p", "=P");
private $surprise = array(">:o", ">:O", ":-O", ":O", "°o°", "°O°", ":O", "o_O", "o.O", "8-0");
private $annoyed = array(">:\\", ">:/", ":-/", ":-.", ":\\", "=/", "=\\", ":S");
private $cry = array(":'(", ";'(");

private $t_smile = "<img class=\"smiley\" src=\"/images/emoticons/smile.png\"/>";
private $t_laugh = "<img class=\"smiley\" src=\"/images/emoticons/laugh.png\"/>";
private $t_sad = "<img class=\"smiley\" src=\"/images/emoticons/sad.png\"/>";
private $t_wink = "<img class=\"smiley\" src=\"/images/emoticons/wink.png\"/>";
private $t_tongue = "<img class=\"smiley\" src=\"/images/emoticons/tongue.png\"/>";
private $t_surprise = "<img class=\"smiley\" src=\"/images/emoticons/surprise.png\"/>";
private $t_annoyed = "<img class=\"smiley\" src=\"/images/emoticons/annoyed.png\"/>";
private $t_cry = "<img class=\"smiley\" src=\"/images/emoticons/cry.png\"/>"

我目前只是在做例如:

$str = str_replace($this->laugh, $this->t_laugh, $str);
每组

。它工作正常,但我需要更换只有当字不被字母或其他数字包围时才会发生。换句话说,我需要编译一个包含每个表情符号数组的正则表达式,这样我就可以使用preg_replace而不是str_replace。有没有办法可以轻松地执行此操作,而不是硬编码正则表达式并转义所有必要的字符?

编辑:

另外,我需要匹配并替换出现在字符串开头和结尾的表情符号,因此使用空格技术的简单填充是不够的。

编辑2:

我按照Mark的例子使用preg_quote从数组中预编译了正则表达式:

private $smile = "#(^|\W)(\>\:\]|\:-\)|\:\)|\:o\)|\:\]|\:3|\:c\)|\:\>|\=\]|8\)|\=\)|\:\}|\:\^\))($|\W)#";
private $laugh = "#(^|\W)(\>\:D|\:-D|\:D|8-D|x-D|X-D|\=-D|\=D|\=-3|8-\)|xD|XD|8D|\=3)($|\W)#";
private $sad = "#(^|\W)(\>\:\[|\:-\(|\:\(|\:-c|\:c|\:-\<|\:-\[|\:\[|\:\{|\>\.\>|\<\.\<|\>\.\<)($|\W)#";
private $wink = "#(^|\W)(\>;\]|;-\)|;\)|\*-\)|\*\)|;-\]|;\]|;D|;\^\))($|\W)#";
private $tongue = "#(^|\W)(\>\:P|\:-P|\:P|X-P|x-p|\:-p|\:p|\=p|\:-Þ|\:Þ|\:-b|\:b|\=p|\=P|xp|XP|xP|Xp)($|\W)#";
private $surprise = "#(^|\W)(\>\:o|\>\:O|\:-O|\:O|°o°|°O°|\:O|o_O|o\.O|8-0)($|\W)#";
private $annoyed = "#(^|\W)(\>\:\\|\>\:/|\:-/|\:-\.|\:\\|\=/|\=\\|\:S|\:\/)($|\W)#";
private $cry = "#(^|\W)(\:'\(|;'\()($|\W)#";

与preg_replace完美配合!

3 个答案:

答案 0 :(得分:5)

如果你想使用正则表达式:

$pat = '#(^|\W)'.preg_quote($this->laugh,'#').'($|\W)#';
$str = str_replace($pat, $this->t_laugh, $str);

这基本上意味着表情符号可以位于字符串的开头或由非单词字符处理,并且必须后跟字符串的结尾或另一个非单词字符。如果您的表情符号包含任何特殊的正则表达式字符,则preg_quote是必需的。

此外,更好的格式可能是:

$emoticons = array(
    'smile' => array('<img src...', array('>:]',':-)',...),
    'laugh' => array('<img src....', array(...)),
    ...
)

然后你可以循环一切。


更新

应该使用负面外观来匹配并排表情符号。然后它不会尝试匹配周围的空间。

<?php
$smile = array(">:]", ":-)", ":)", ":o)", ":]", ":3", ":c)", ":>", "=]", "8)", "=)", ":}", ":^)");
$laugh = array(">:D", ":-D", ":D", "8-D", "x-D", "X-D", "=-D", "=D", "=-3", "8-)");
$sad = array(">:[", ":-(", ":(",  ":-c", ":c", ":-<", ":-[", ":[", ":{", ">.>", "<.<", ">.<");
$wink = array(">;]", ";-)", ";)", "*-)", "*)", ";-]", ";]", ";D", ";^)");
$tongue = array(">:P", ":-P", ":P", "X-P", "x-p", ":-p", ":p", "=p", ":-Ã", ":Ã", ":-b", ":b", "=p", "=P");
$surprise = array(">:o", ">:O", ":-O", ":O", "°o°", "°O°", ":O", "o_O", "o.O", "8-0");
$annoyed = array(">:\\", ">:/", ":-/", ":-.", ":\\", "=/", "=\\", ":S");
$cry = array(":'(", ";'(");

$ary = array_merge($smile, $laugh, $sad, $wink, $tongue,$surprise,$annoyed,$cry);

foreach ($ary as $a)
{
        $quoted[] = preg_quote($a, '#');
}

$regex = implode('|', $quoted);


$full = '#(?!<\w)(' . $regex .')(?!\w)#';
echo $full.PHP_EOL;
$str = "Testing :) emoticons :D :(";

preg_match_all($full, $str, $matches);
print_r($matches[0]);

此外,在编写正则表达式模式时尝试使用单引号,因为双引号允许转义序列,单引号不会解释转义序列。也就是说,在使用双引号时,有时需要加倍斜杠。

答案 1 :(得分:0)

也许有像

这样的格式化循环
for($i=0;$i<count($smiles);++$i){
   $smiles[$i]="~\s".$smiles[$i]."\s~";
}

然后它只是preg_replace的一个下降($ smiles,$ t_smiles,$ text)

答案 2 :(得分:0)

这些内容可能正是您所寻找的:

function toRegex(array $emotes) {
    foreach ($emotes as &$emote)
        $emote = preg_quote($emote, "/");
    return "/\b" . implode($emotes, "\b|\b") . "\b/";
}

$imaged = preg_replace(toRegex($smiles), $t_smiles);

另外,正如上面提到的那样,除了你必须手动处理的一百个小变量之外,你最好使用所有表情符号的巨大数组。