韩国数据加载在Hive中

时间:2017-11-10 09:39:08

标签: linux hive

我需要将样本数据集加载到hive表中。 数据如下所示: 차주사업체별한도제한으로할인못함 - 업체별한도제한해제요청。 这似乎是韩国人。

将加载到hadoop的文件包含2列: 名称和描述。(名称字段为英文)。

表DDL

名称 - 字符串 描述 - 字符串

在将数据加载到Hive之前,我尝试了以下方法。 1. native2ascii -encoding UTF-8文件名filename1    (然后将filename1加载到配置单元中)。    上面的命令将字符转换为utf-8和以下结果 \ ucc28 \ uc8fc \ uc0ac \ uc5c5 \ uccb4 \ ubcc4 \ ud55c \ ub3c4 \ uc81c \ ud55c \ uc73c \ ub85c \ ud560 \ uc778 \ ubabb \ ud568 - \ uc5c5 \ uccb4 \ ubcc4 \ ud55c \ ub3c4 \ uc81c \ ud55c \ ud574 \ uc81c \ uc694 \ uccad。

但是在查询表格时,我仍然得到utf-8格式的描述而不是韩语。

  1. 在加载luit -c -encoding cjk $ {file_name} _encd之前,还尝试对文件进行luit转换 这给出了不同的字符而不是预期的结果。
  2. 我该怎么办?我错过了什么。 谢谢你的帮助。

1 个答案:

答案 0 :(得分:0)

ALTER TABLE homeplus_tmp.test_customers SET SERDEPROPERTIES('serialization.encoding'='EUC-KU');