我想计算Hive表中每个表情符号的频率。为此,我尝试使用HiveQL提取单个表情符号,或将句子正确分解为单词/表情符号。
例如,我的Hive表中有names.forEach(name => {
someClass[name].printInfo(21);
})
作为UTF-8格式,我希望得到以下结果:
'hotel ❤️ *'
我到目前为止的进展:
结果:
'hotel', '','❤️', '*'
代码:
'hotel', '❤️', '*'
select split(col_name,'[ ]')
FROM the_table;
之类的东西来提取所需的表情符号,但是我没有完整的表情符号列表,因此仍然无法利用它来获取想要的表情符号。regexp_extract