如何使用HiveQL提取表情符号?

时间:2019-05-10 17:52:35

标签: utf-8 hiveql

我想计算Hive表中每个表情符号的频率。为此,我尝试使用HiveQL提取单个表情符号,或将句子正确分解为单词/表情符号。

例如,我的Hive表中有names.forEach(name => { someClass[name].printInfo(21); }) 作为UTF-8格式,我希望得到以下结果: 'hotel ❤️ *'

我到目前为止的进展:

  1. 如果使用以下代码,则可以用空格分隔数据,但不能拆分两个表情符号

结果: 'hotel', '','❤️', '*'

代码:

'hotel', '❤️', '*'
  1. 我知道我可以使用select split(col_name,'[ ]') FROM the_table; 之类的东西来提取所需的表情符号,但是我没有完整的表情符号列表,因此仍然无法利用它来获取想要的表情符号。
regexp_extract

0 个答案:

没有答案