由impala创建的外部表格的额外文本,来自csv

时间:2017-02-09 11:42:17

标签: csv hive hdfs impala bigdata

我有很多带有一些行和多列的csv。第一个单元格为id Ex:c63-c5cf-44d7,在S3存储桶中依此类推。 所以我在该位置创建外部表而不跳过标题,因为没有标题,第一行也有实际值。

如果我从第一个单元格值开始select *,则自动附加一些文本,如

./Track.2017-02-06-12-11_ae55b12f.csv00006440000000000000000031413046064003015703 0ustar  rootrootc63-c5cf-44d7

rootroot之后的最后一个单元格值的字符串。
我试图替换它regex_replace也尝试了regex_extract但是在获取值时使用select查询失败了。

当我将选择ID列表导入到csv时,它会显示许多?个标记 是CSV头问题吗?或者建议在创建csv时使用Header,并在创建外部表时避免使用Header。

0 个答案:

没有答案