在一个数据集(大约200k条记录)中,有一个名为tag的列(以逗号分隔的与标题相关的标签列表。标签的例子是“html”,“error”等等。
PHP中,错误,GD,图像处理
PHP中,错误,GD,图像处理
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
口齿不清,方案,主观的,Clojure的
可可触摸,目标c,设计图案
可可触摸,目标c,设计图案
可可触摸,目标c,设计图案
芯的动画
django的,Django的模型
django的,Django的模型
ASPA»净
阶,模式匹配,接力,面向对象的设计,设计原理
阶,模式匹配,接力,面向对象的设计,设计原理
阶,模式匹配,接力,面向对象的设计,设计原理
。 。 。 。
如何在数据集中找到前10个最常用的标签?在猪或蜂巢中
答案 0 :(得分:0)
解决方案:
1)标记数据 https://pig.apache.org/docs/r0.14.0/func.html#tokenize
2)展开由标记器创建的包 https://pig.apache.org/docs/r0.14.0/basic.html#flatten
3)按条款分组,并计算,sg如下:
counts = FOREACH (GROUP data BY term) GENERATE
group AS term,
COUNT(data) AS term_cnt;
4)然后通过某种标识符和MAX再次对数据进行分组 https://pig.apache.org/docs/r0.14.0/func.html#max 或者命令它获得顶部x