Question

在一个数据集（大约200k条记录）中，有一个名为tag的列（以逗号分隔的与标题相关的标签列表。标签的例子是“html”，“error”等等。

PHP中，错误，GD，图像处理

口齿不清，方案，主观的，Clojure的

可可触摸，目标c，设计图案

芯的动画

django的，Django的模型

ASPA»净

阶，模式匹配，接力，面向对象的设计，设计原理

。。。。

如何在数据集中找到前10个最常用的标签？在猪或蜂巢中

Answer 1

解决方案：

3）按条款分组，并计算，sg如下：

counts = FOREACH (GROUP data BY term) GENERATE
    group AS term,
    COUNT(data) AS term_cnt;

4）然后通过某种标识符和MAX再次对数据进行分组 https://pig.apache.org/docs/r0.14.0/func.html#max 或者命令它获得顶部x