所以我试图通过HUE Web界面使用Hive将我的日志文件导入hadoop集群。 日志文件的格式为
"/log/apache/apache91" "10.93.123.135" "8081" "12.93.145.7" "12.93.123.7" "/index.html" "" "114" "111211" "21111" "200" "200" "[14/Mar/2013:23:00:15 -0400]" "-" "-" "-" "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)" "-" "-" "-" "-"
所以我尝试使用引号作为分隔符在HUE中使用自动表创建。但这给了我每列第二列的空列。我理解为什么会因为分隔符而发生这种情况。有没有一种方法可以在没有空列的情况下导入数据,或者我可以删除空列,还是可以从现有表创建新表并仅提取我想要的数据。
我要导入大量数据。如果有人对我有更好的解决方案,我会对此持开放态度。
答案 0 :(得分:0)
Hive只支持一个字符作为分隔符,所以确实需要一个字段分隔符或TSV / CSV格式。
也许您可以配置记录器的分隔符(切换到TAB或逗号而不是空格),您将不需要预处理步骤。