遍历日志并生成参数计数

时间:2020-06-12 02:01:18

标签: apache-pig

我有如下日志

return

并且我有一个来自json文件的参数,该文件具有需要获取

计数的模式
stack-overflow is  awesome
apache-pig is really complex for starters
work from home in beginning was awesome
but now it sucks

现在我需要汇总并找到文件中每个参数的数量

因此任务将是获取以下内容

regex='is|stackoverflow|awesome'

我需要将param变量加载到元组中, 然后查看每个变量是否都以这种方式存在 以下是我的伪代码

is-2
stackoverflow-1
awesome-2

现在的问题是,我无法将param变量加载到pig tuple的元组中

有没有办法做到这一点,还有没有更好的方法可以完成上述任务?

0 个答案:

没有答案