我想将IIS博客加载到Hive表中,但日志文件中的注释会受到影响。有没有办法让Hive的Load忽略以#?
开头的行答案 0 :(得分:1)
如果您的表架构有整列"条目"作为STRING,您可以将查询的WHERE子句中的条件设置为 哪里 substr(entry,1,1)!="#"
Hive是读取架构,因此只要它能够获取第一个字符就不会抱怨整个记录。
您可能希望将此类记录修剪为已清理的表,以便查询该表的人不会将substr(条目,1,1)的WHERE条件放入!="#"