如何在加载时忽略注释行

时间:2014-11-10 22:06:29

标签: hadoop hive

我想将IIS博客加载到Hive表中,但日志文件中的注释会受到影响。有没有办法让Hive的Load忽略以#?

开头的行

1 个答案:

答案 0 :(得分:1)

如果您的表架构有整列"条目"作为STRING,您可以将查询的WHERE子句中的条件设置为 哪里 substr(entry,1,1)!="#"

Hive是读取架构,因此只要它能够获取第一个字符就不会抱怨整个记录。

您可能希望将此类记录修剪为已清理的表,以便查询该表的人不会将substr(条目,1,1)的WHERE条件放入!="#"