在javascript中捕获表情符号

时间:2014-07-22 02:53:06

标签: javascript parsing emoji

我必须在javascript中编写一个可以检测表情符号的模块,并用带有图像链接的div标签替换每个模块。

(Emojis是形式的字符串:) :-) etc)

问题是我有几百个并尝试编写正则表达式以捕获所有这些并不是一个好主意。

有没有办法做到这一点,因为我有一个散列图,其中键是表情符号字符串,值是十六进制值。 (所有表情符号都在一个范围内)

谢谢!

编辑:所以我说这个问题的方式可能并不清楚。想象一下,你有一个包含100000个单词的字典,每个单词有4-5个字符。和一串线,每行包含100 - 150个字符。你怎么能找到这些单词?

2 个答案:

答案 0 :(得分:5)

遗憾的是,Javascript字符串是 16位无符号整数代码点的序列,通常表示Unicode字符串的UTF-16编码。因此,BMP之外的Unicode字符(从U+10000开始的代码点)表示为代理对,每个代理对都是两个“字符”长。这在正则表达式中可见;如果您想匹配,例如U+1F623(“PERSEVERING FACE”),则需要匹配\uD83D\uDE23

虽然令人讨厌,但这并非完全不切实际。范围仍然很容易匹配。例如,假设您认为表情符号是范围U+1F300...U+1F64F,这是http://www.unicode.org/Public/UNIDATA/EmojiSources.txt中表情符号转录数据中列出的大部分但不是全部字符,那么您可以使用正则表达式:

/\uD83C[\uDF00-\uDFFF]|\uD83D[\uDC00-\uDE4F]/

要计算这些代码,您需要了解从非BMP Unicode代码点到两个代理项字符的映射。它并不复杂:)首先,你从Unicode代码点中减去U+10000(UTF-16的设计者选择避免在已经适合16位的代码点上浪费代码空间)。这留下了一个20位的数字,因为最大的有效Unicode代码点是U+10FFFF。现在,您需要将该20位数字拆分为两个10位块。高阶10位被添加到U+D800以形成第一个代理代码,低阶10位被添加到U+DC00以形成第二个代理。

使用PERSEVERING FACE示例:

U+1F623 => 0F623       (subtract 0x10000)
        => 0000 1111 0110 0010 0011  (in binary)
        => 00 0011 1101, 10 0010 0011 (two 10-bit chunks)
        =>  03D,  223  (back to hex)
        => D83D, DE23  (add D800 to first and DC00 to second) 

如果您有bashiconv实用程序,让计算机执行这些计算的“简单”方法是:

printf $'\U1F623\U1F3A9' |
iconv -f utf8 -t utf16le | hexdump -e '8/2 "%04x " "\n"'

(我将其拆分为两行进行显示,但您只需将其键入一行即可。您可以将任意数量的代码放入传递给printf的字符串中。)

答案 1 :(得分:0)

可能你正在避免使用正则表达式,因为到目前为止还没有找到一个正常工作的正则表达式。你可以尝试这个,也许它有效。

/(?:[\u2700-\u27bf]|(?:\ud83c[\udde6-\uddff]){2}|[\ud800-\udbff][\udc00-\udfff]|[\u0023-\u0039]\ufe0f?\u20e3|\u3299|\u3297|\u303d|\u3030|\u24c2|\ud83c[\udd70-\udd71]|\ud83c[\udd7e-\udd7f]|\ud83c\udd8e|\ud83c[\udd91-\udd9a]|\ud83c[\udde6-\uddff]|[\ud83c[\ude01-\ude02]|\ud83c\ude1a|\ud83c\ude2f|[\ud83c[\ude32-\ude3a]|[\ud83c[\ude50-\ude51]|\u203c|\u2049|[\u25aa-\u25ab]|\u25b6|\u25c0|[\u25fb-\u25fe]|\u00a9|\u00ae|\u2122|\u2139|\ud83c\udc04|[\u2600-\u26FF]|\u2b05|\u2b06|\u2b07|\u2b1b|\u2b1c|\u2b50|\u2b55|\u231a|\u231b|\u2328|\u23cf|[\u23e9-\u23f3]|[\u23f8-\u23fa]|\ud83c\udccf|\u2934|\u2935|[\u2190-\u21ff])/g

我希望这会对你有所帮助