在HIVE中爆炸一个字符串

时间:2014-08-31 19:26:49

标签: python hadoop split hive user-defined-functions

我遇到了一个有趣的问题。我有一个调用Python UDF的HIVE脚本来操作某些日期。 Python的输出是6列,3是字符串,3是数组。

e.g。 print '%s\t%s\t%s\t%s\t%s\t%s\t%s' % (ID1, ID2, ID3, ARR1, ARR2, ARR3)

这是我的python UDF输出中的一行:

10161   10400511433810000       (0000010161, 10400511433810001) ["0011583180","0011583180","0011583180"]        ['2004-04-16', '2004-04-16', '2004-04-16']      ['2004-09-03', '2004-09-03', '2004-09-03']      

# 问题1: 我正在使用%s,因为我无法找到一种方法将数组以HIVE将其作为数组读取的方式返回到HIVE。

所以我在HIVE中创建了一个表,它甚至可以将数组作为字符串导入,假设我可以将字符串拆分为数组。我用的脚本:

insert overwrite table table2
SELECT 
ID1,
ID2,
ID3,
SPLIT(ARR1, '\\\t') as ARR1,
SPLIT(ARR2, '\\\t') as ARR2,
SPLIT(ARR3, '\\\t') as ARR3
FROM table1 
LIMIT 10;  

# 问题2:我得到以下输出:

0000010167      10400514362740001       (0000010167, 10400514362740001) ["[\"0022136941\",\"0022315161\"]"]     ["['1900-01-01', '2007-05-01']"]        ["['1900-01-01', '2008-06-16']"]        

我真正需要的是:

0000010167      10400514362740001       (0000010167, 10400514362740001)      0022136941       1900-01-01      1900-01-01
0000010167      10400514362740001       (0000010167, 10400514362740001)      0022315161       2007-05-01      2008-06-16

2 个答案:

答案 0 :(得分:0)

在我的想法中,你有一个水平表,但你需要的是一个垂直表。我不知道 如何使用Hive来解决这个问题,所以我用mapreduce解决了它。 是的,在这种情况下使用mapreduce非常容易。 这是中文的一个例子,但您只需要了解Java代码。 mapreduce example

答案 1 :(得分:0)

您可能需要查看Exhibit,这是在行中执行嵌套SQL查询的Hive UDF / UDTF原型,并将其与Lateral view相关联。