HIVE表的Parquet数据,带有特殊字符,如'á''''''''显示

时间:2017-10-25 09:15:40

标签: hive character-encoding parquet

我们有一个Hive表,它在后台有snappy.parquet数据作为该表的数据。该数据具有特殊的欧洲和亚洲字符,如'á''è''月'。通过将ASCII文件转换为具有SPARK保存功能的Parquet来加载Hive表。表格架构如下

COL-NAME STRING

refnbr bigint
man 字符串
spras 字符串
aatkg 字符串
wgbez 字符串[特殊字符在此字段中]

errez60 字符串[特殊字符在此字段中] coller 字符串
t_id bigint
filetag 字符串。

尝试在此表上进行正常选择时,它会显示结果,但对于特殊字符,它显示的内容是这样的 - > “ Cartedet l phone”。但是,没有这些特殊字符的相同字段数据的其余部分正确显示。 请告知是否 i)我们需要在HIVE表级别设置任何编码设置,这将是怎样的?要么 ii)是否与使用正确的表属性设置serde属性进行编码有关。那是什么以及如何做到这一点。如果你能提出建议,将不胜感激。 iii)或者,如果我可能在这里错过任何其他元素。

1 个答案:

答案 0 :(得分:0)

请尝试使用简单的文本格式(不带镶木地板)。使用UTF-8字符保存文件。使用此文件加载表。是否确实需要Parquet格式?