map reduce program to count表中列中特定实体的频率

时间:2017-05-17 19:05:37

标签: java scala hadoop mapreduce word-count

我们有一个表格数据集形式的营销报告,其架构如下所示:

enter image description here

Link to the dataset

我们需要编写地图缩减计划,以便找出 Initial_referring 源网站的最高频率,以便找出哪个网站最有效的广告平台。< / p>

方法

  1. 删除distinct_id列中具有重复实体的行。
  2. 计算initial_referring列中每个实体的频率。
  3. 发布每个身份的频率结果。
  4. 我能够在Hive和pig中解决这个问题但是无法在MapReduce程序中获得正确的结果。

    任何类似代码的参考或片段都可以提供帮助。

0 个答案:

没有答案