Hive支持Unicode字符

时间:2015-12-03 22:24:24

标签: hive

是否有任何Serde可用于支持带有Unicode字符的hive表。我们可能有UTF-8,UTF-18和UTF-32文件。但是我们正在寻找支持日语,中文等不同语言的蜂巢表。我们应该能够将不同的语言数据加载到hive表中

1 个答案:

答案 0 :(得分:0)

Hive只能读写UTF-8文本文件 对于其他字符集,它应该转换为UTF-8。
转换语法

hive> CREATE TABLE mytable(name, datatype) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES("serialization.encoding"='FORMAT');

转换可以使用iconv完成,但它只支持小于16G的文件。 语法:

>iconv -f encoding -t encoding inputfile