在apache猪的TOP功能

时间:2016-02-04 19:56:43

标签: hive apache-pig

在一个数据集(大约200k条记录)中,有一个名为tag的列(以逗号分隔的与标题相关的标签列表。标签的例子是“html”,“error”等等。

PHP中,错误,GD,图像处理

PHP中,错误,GD,图像处理

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

口齿不清,方案,主观的,Clojure的

可可触摸,目标c,设计图案

可可触摸,目标c,设计图案

可可触摸,目标c,设计图案

芯的动画

django的,Django的模型

django的,Django的模型

ASPA»净

阶,模式匹配,接力,面向对象的设计,设计原理

阶,模式匹配,接力,面向对象的设计,设计原理

阶,模式匹配,接力,面向对象的设计,设计原理

。 。 。 。

如何在数据集中找到前10个最常用的标签?在猪或蜂巢中

1 个答案:

答案 0 :(得分:0)

解决方案:

1)标记数据 https://pig.apache.org/docs/r0.14.0/func.html#tokenize

2)展开由标记器创建的包 https://pig.apache.org/docs/r0.14.0/basic.html#flatten

3)按条款分组,并计算,sg如下:

counts = FOREACH (GROUP data BY term) GENERATE
    group AS term,
    COUNT(data) AS term_cnt;

4)然后通过某种标识符和MAX再次对数据进行分组 https://pig.apache.org/docs/r0.14.0/func.html#max 或者命令它获得顶部x