c#将带有表情符号的字符串转换为unicode

时间:2018-03-20 02:46:15

标签: c# unicode emoji

我从客户端得到一个字符串,如下所示:

This is a face  :grin: 

我需要将:grin:转换为unicode才能将其发送到其他服务。

  

有任何线索如何做到这一点?

1 个答案:

答案 0 :(得分:1)

这是一个link到一个包含相关信息的相当不错的json文件。它包含带有表情符号的巨大数组(大约1500个条目),我们对2个属性感兴趣:“short_name”表示名称,如“grin”,“unified”属性,包含unicode表示,如“1F601”。

我构建了一个帮助器类来替换像“:grin:”这样的短名称,其等效的unicode:

public static class EmojiParser {
    static readonly Dictionary<string, string> _colonedEmojis;
    static readonly Regex _colonedRegex;
    static EmojiParser() {
        // load mentioned json from somewhere
        var data = JArray.Parse(File.ReadAllText(@"C:\path\to\emoji.json"));
        _colonedEmojis = data.OfType<JObject>().ToDictionary(
            // key dictionary by coloned short names
            c => ":" + ((JValue)c["short_name"]).Value.ToString() + ":",
            c => {
                var unicodeRaw = ((JValue)c["unified"]).Value.ToString();
                var chars = new List<char>();
                // some characters are multibyte in UTF32, split them
                foreach (var point in unicodeRaw.Split('-'))
                {
                    // parse hex to 32-bit unsigned integer (UTF32)
                    uint unicodeInt = uint.Parse(point, System.Globalization.NumberStyles.HexNumber);
                    // convert to bytes and get chars with UTF32 encoding
                    chars.AddRange(Encoding.UTF32.GetChars(BitConverter.GetBytes(unicodeInt)));
                }
                // this is resulting emoji
                return new string(chars.ToArray());
            });
        // build huge regex (all 1500 emojies combined) by join all names with OR ("|")
        _colonedRegex =  new Regex(String.Join("|", _colonedEmojis.Keys.Select(Regex.Escape)));
    }

    public static string ReplaceColonNames(string input) {
        // replace match using dictoinary
        return _colonedRegex.Replace(input, match => _colonedEmojis[match.Value]);
    }
}

用法很明显:

var target = "This is a face&nbsp;&nbsp;:grin:&nbsp;:hash:";
target = EmojiParser.ReplaceColonNames(target);

它非常快(除了第一次运行,因为静态构造函数初始化)。在你的字符串上它需要不到1毫秒(无法用秒表测量,总是显示0毫秒)。在实际上你永远不会遇到的巨大字符串(1MB文本),我的机器需要300ms。