创建Hive表 - 如何从CSV源派生列名?

时间:2015-03-02 06:40:45

标签: mysql csv hadoop hive apache-spark

......我真的认为这将是一条经常旅行的道路。

我想通过检查CSV文件中的第一条记录(通常就是这种情况)列名称来在Hive(或SQL中)创建DDL语句。

我已经看到了这个问题的各种答案,但不是很多可以自动化或大规模复制的答案。

我创建了以下代码来处理任务,但我担心它有一些问题:

#!/usr/bin/python

import sys
import csv

# get file name (and hence table name) from command line
# exit with usage if no suitable argument

if len(sys.argv) < 2:
   sys.exit('Usage: ' + sys.argv[0] + ': input CSV filename')
ifile = sys.argv[1]

# emit the standard invocation
print 'CREATE EXTERNAL TABLE ' + ifile + ' ('

with open(ifile + '.csv') as inputfile:
   reader = csv.DictReader(inputfile)
   for row in reader:
      k = row.keys()
      sprung = len(k)
      latch = 0
      for item in k:
         latch += 1
         dtype = '` STRING' if latch == sprung else '` STRING,'
         print '`' + item.strip() + dtype
      break
   print ')\n'

print "ROW FORMAT DELIMITED FIELDS TERMINATED BY ','"
print "LOCATION 'replacethisstringwith HDFS or S3 location'"

首先,它只是将所有内容数据类型化为STRING。 (我想这是来自CSV,这是一个可以原谅的罪。当然,人们可以对结果输出进行操作以更准确地设置数据类型。)

第二个是它没有清除Hive表列名中不允许的字符的潜在列名。 (我通过读取一个数据集来立即打破它,其中列名称通常有一个撇号作为数据。这导致一团糟。)

第三是数据位置被标记化。我想只需要更多的编码时间,它就可以作为参数传递给命令行。

我的问题是 - 为什么我们需要这样做?这样做的简单方法是我错过了吗?

(顺便说一句:参考CSV Serde没有奖励积分 - 我认为这只能在Hive 14中使用。我们很多人对我们的生产系统并不是那么远。)

2 个答案:

答案 0 :(得分:1)

关于第一个问题(所有列都被键入字符串),这实际上是当前的行为,即使表由CSVSerde或RegexSerDe之类的东西处理。根据您的用例的详细信息是否可以容忍额外的运行时延迟,一种可能的方法是根据您的外部表定义一个视图,该视图在查询时动态重新编写列,并直接查询视图而不是外部表。类似的东西:

CREATE VIEW VIEW my_view (
  CAST(col1 AS INT) AS col1,
  CAST(col2 AS STRING) AS col2,
  CAST(col3 AS INT) as col3,
  ...
  ...
) AS SELECT * FROM my_external_table;

对于第二个问题(清理列名称),我推断你的Hive安装是0.12或更早(0.13支持列名中的任何unicode字符)。如果导入re正则表达式模块,则可以使用以下内容在Python中执行该清理:

for item in k:
  ...
  print '`' + re.sub(r'\W', '', item.strip()) + dtype

这应该摆脱任何非alphernumeric /下划线字符,这是Hive列名称的0.13前期预期。顺便说一下,如果你用这种方式消毒列名,我认为你不再需要周围的反引号。

至于第三个问题(外部表位置),我认为将位置指定为命令行参数是一种合理的方法。一种替代方案可能是添加另一个&#34; metarow&#34;以某种方式指定位置的数据文件,但如果你已经坐在大量的数据文件上,这将是一个痛苦 - 我个人更喜欢命令行方法。

答案 1 :(得分:1)

Kite SDK具有使用标头记录中的名称和前几个数据记录中的类型来推断CSV模式的功能,然后从该模式创建Hive表。您也可以使用它将CSV数据导入该表。