我从客户端得到一个字符串,如下所示:
This is a face :grin:
我需要将:grin:转换为unicode
才能将其发送到其他服务。
有任何线索如何做到这一点?
答案 0 :(得分:1)
这是一个link到一个包含相关信息的相当不错的json文件。它包含带有表情符号的巨大数组(大约1500个条目),我们对2个属性感兴趣:“short_name”表示名称,如“grin”,“unified”属性,包含unicode表示,如“1F601”。
我构建了一个帮助器类来替换像“:grin:”这样的短名称,其等效的unicode:
public static class EmojiParser {
static readonly Dictionary<string, string> _colonedEmojis;
static readonly Regex _colonedRegex;
static EmojiParser() {
// load mentioned json from somewhere
var data = JArray.Parse(File.ReadAllText(@"C:\path\to\emoji.json"));
_colonedEmojis = data.OfType<JObject>().ToDictionary(
// key dictionary by coloned short names
c => ":" + ((JValue)c["short_name"]).Value.ToString() + ":",
c => {
var unicodeRaw = ((JValue)c["unified"]).Value.ToString();
var chars = new List<char>();
// some characters are multibyte in UTF32, split them
foreach (var point in unicodeRaw.Split('-'))
{
// parse hex to 32-bit unsigned integer (UTF32)
uint unicodeInt = uint.Parse(point, System.Globalization.NumberStyles.HexNumber);
// convert to bytes and get chars with UTF32 encoding
chars.AddRange(Encoding.UTF32.GetChars(BitConverter.GetBytes(unicodeInt)));
}
// this is resulting emoji
return new string(chars.ToArray());
});
// build huge regex (all 1500 emojies combined) by join all names with OR ("|")
_colonedRegex = new Regex(String.Join("|", _colonedEmojis.Keys.Select(Regex.Escape)));
}
public static string ReplaceColonNames(string input) {
// replace match using dictoinary
return _colonedRegex.Replace(input, match => _colonedEmojis[match.Value]);
}
}
用法很明显:
var target = "This is a face :grin: :hash:";
target = EmojiParser.ReplaceColonNames(target);
它非常快(除了第一次运行,因为静态构造函数初始化)。在你的字符串上它需要不到1毫秒(无法用秒表测量,总是显示0毫秒)。在实际上你永远不会遇到的巨大字符串(1MB文本),我的机器需要300ms。