Question

Hive有一个非常好的数组类型，在理论上非常有用，但是当涉及到练习时，我发现很少有关于如何使用它进行任何操作的信息。我们在数组类型列中存储一系列数字，并且需要在查询中对它们进行求和，最好是从第n个元素到第m个元素。是否可以使用标准HiveQL或是否需要UDF或客户映射器/缩减器？

注意：我们在EMR环境中使用Hive 0.8.1。

Answer 1

我为此目的写了一个简单的UDF。您需要在构建路径中使用hive-exec 例如，Maven：

<dependency>
  <groupId>org.apache.hive</groupId>
  <artifactId>hive-exec</artifactId>
  <version>0.8.1</version>
</dependency>

一个简单的原始实现看起来像这样：

package com.myexample;

import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.IntWritable;

public class SubArraySum extends UDF {

    public IntWritable evaluate(ArrayList<Integer> list, 
      IntWritable from, IntWritable to) {
        IntWritable result = new IntWritable(-1);
        if (list == null || list.size() < 1) {
            return result;
        }

        int m = from.get();
        int n = to.get();

        //m: inclusive, n:exclusive
        List<Integer> subList = list.subList(m, n);

        int sum = 0;
        for (Integer i : subList) {
            sum += i;
        }
        result.set(sum);
        return result;
    }
}

接下来，构建一个jar并将其加载到Hive shell中：

hive> add jar /home/user/jar/myjar.jar;
hive> create temporary function subarraysum as 'com.myexample.SubArraySum';

现在你可以用它来计算你拥有的数组的总和。

E.g：

假设您有一个输入文件，其中包含以制表符分隔的列：

1   0,1,2,3,4
2   5,6,7,8,9

将其加载到mytable：

hive> create external table mytable (
  id int,
  nums array<int>
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION '/user/hadoopuser/hive/input';

然后执行一些查询：

hive> select * from mytable;
1   [0,1,2,3,4]
2   [5,6,7,8,9]

在范围m，n中求和，其中 m = 1，n = 3

hive> select subarraysum(nums, 1,3) from mytable;
3
13

或者

hive> select sum(subarraysum(nums, 1,3)) from mytable;
16

Answer 2

上面的答案得到了很好的解释。我发布了一个非常简单的UDF实现。

package com.ak.hive.udf.test;

import java.util.ArrayList;

import org.apache.hadoop.hive.ql.exec.UDF;

    public final class ArraySumUDF extends UDF {
        public int evaluate(ArrayList<Integer>arrayOfIntegers,int startIndex,int endIndex) {
            // add code to handle all index problem
                    int sum=0;
            int count=startIndex-1;
            for(;count<endIndex;count++){
                sum+=arrayOfIntegers.get(count);
            }
            return sum;
        }
    }

还发布表创建和其他查询。

create table table1 (col1 int,col2 array<int>)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' COLLECTION ITEMS TERMINATED BY '~' STORED AS TEXTFILE;

load data local inpath '/home/ak/Desktop/hivedata' into table table1;

我的输入文件看起来像

1,3〜5〜8〜5〜7〜9
2,93〜5〜8〜5〜7〜29
3,3〜95〜8 5〜27〜〜9
4,3〜5〜58〜15〜7〜9
5,3〜25〜8〜55〜7〜49
6,3〜25〜8〜15〜7〜19
7,3~55~78~5~7~9

我创建了一个我的UDF jar，我使用以下命令将jar添加到hive

add jar file:///home/ak/Desktop/array.jar;

然后我创建临时功能，如图所示

create temporary function getSum as 'com.ak.hive.udf.test.ArraySumUDF';

执行以下示例查询，

select col1,getSum(col2,1,3) from table1;

这应该解决非常基本的需求。如果这不是问题陈述，请回复，以便我可以再次帮助您。

Hive数组类型的求和值

2 个答案: