将带有utf-8的字符串转换为unicode

时间:2016-11-13 01:53:54

标签: java unicode encoding utf-8

我有一个包含utf-8编码表情符号的字符串。字符串被转义。我需要将utf-8转换为emojis并正确打印它们。例如:

input: \\xe2\\x80\\x9c@VineFights: He does not care Lamo!!! 
\\xf0\\x9f\\x98\\x82 https:\\/\\/t.co\\/TwmYFEhx9g\\xe2\\x80\\x9d\\xf0\\x9f\\x98\\x82\\xf0
\\x9f\\x98\\xad\\xf0\\x9f\\x98\\xad 

Expected output: He does not care Lamo!!!  URL”

这是一个单弦(没有休息)。在这个问题中,我把它分解为一个视图 我的想法是使用正则表达式(\\\\x[a-fA-F0-9]{2})+提取表情符号,并通过手动将字节转换为表情符号来替换它们。在几个案例中失败了,例如示例中的那个。它也感觉像是不必要的hacky /丑陋的解决方案。处理它的正确方法是什么?

(更有兴趣知道这在现实世界中是如何实现的。任何例子都表示赞赏)

0 个答案:

没有答案