使用冰岛荆棘角色作为蜂巢的分隔符

时间:2012-10-11 06:55:52

标签: encoding hadoop hive

我目前正在尝试将一些DoubleClick广告日志导入Hadoop。

这些日志存储在gzip分隔文件中,该文件使用第1252页(Windows-ANSI?)编码,并使用Icelandic Thorn字符作为分隔符。

我可以愉快地将这些日志导入到一个列中,但我似乎找不到让Hive理解Thorn字符的方法 - 我想也许是因为它不理解1252编码?

我查看了创建表文档 - http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html - 但似乎找不到任何方法让这个编码/分隔符正常工作。

我也从https://karmasphere.com/karmasphere-analyst-faq看到这些文件的编码是ISO-8859-1的建议 - 但我没有看到如何在Hive或HDFS中使用该信息。

我知道我可以在导入后执行地图作业,将这些行拆分为多个记录。

但有没有更简单的方法直接使用这个分隔符?

由于

斯图尔特

1 个答案:

答案 0 :(得分:2)

使用'\ -2' char是一个带符号的字节。

显然,hive开发人员不认为这是一个问题: https://issues.apache.org/jira/browse/HIVE-237