我在Hive 1.2.1表中有一些数据。我必须获取特定列的原始字节。列数据是html原始的多种语言。为了获得字符长度,我可以使用下面的简单查询
['11.10.2011 10:04:12 * * topogram goes on a different area C ', '19.10.2011 19:56:41 Lwin Zaw Win . . Replaced the faulty Hand controllers with the new ones. ***********CRACKS']
上面的查询可以查询字符长度,问题是其他文本是英语,它们的值不正确。对于阿拉伯语字符,将其另存为未编码,这就是更改字符长度的原因。有些字符是两个字节,有些字符是单个字节。
是否有任何内置函数可以识别文本字节而不是字符?
答案 0 :(得分:0)
功能character_length(string str)
是在Jira HIVE-15979中添加的,它说的是修订版本2.3.0。如果您无法升级Hive(这是非常冒险的),请尝试下载UDF源代码并进行构建,然后添加jar并创建临时功能。