如何获取Hive中字符串使用的文本字节?

时间:2019-06-13 05:25:32

标签: sql hadoop hive hiveql

我在Hive 1.2.1表中有一些数据。我必须获取特定列的原始字节。列数据是html原始的多种语言。为了获得字符长度,我可以使用下面的简单查询

['11.10.2011 10:04:12  * * topogram goes on a different area C   ', '19.10.2011 19:56:41 Lwin Zaw Win . .  Replaced the faulty Hand controllers with the new ones. ***********CRACKS']

上面的查询可以查询字符长度,问题是其他文本是英语,它们的值不正确。对于阿拉伯语字符,将其另存为未编码,这就是更改字符长度的原因。有些字符是两个字节,有些字符是单个字节。

是否有任何内置函数可以识别文本字节而不是字符?

1 个答案:

答案 0 :(得分:0)

功能character_length(string str)是在Jira HIVE-15979中添加的,它说的是修订版本2.3.0。如果您无法升级Hive(这是非常冒险的),请尝试下载UDF源代码并进行构建,然后添加jar并创建临时功能。

下载代码:GenericUDFCharacterLength.java