将HTML实体转换为Python表情符号

时间:2016-03-04 20:07:56

标签: python html emoji emoticons

说我有以下HTML表情符号实体:'😄'

请注意,4和之间实际上没有空格。它只是在那里,所以它不会显示为笑脸

表情符号的Python表单是:你" \ U0001f604"

如何将所有HTML表情符号实体转换为其Python表单?

到目前为止我尝试过的事情:

  • 编码为utf-8
  • 使用HTML Parser取消文本,然后转换
  • 使用正则表达式(无法获得适用于所有HTML表情符号实体的内容 - 不像使用\ U000那样简单地交换& #x,因为它只适用于某些实体)

1 个答案:

答案 0 :(得分:3)

HTMLParser.unescape就是这样做的:

In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'