应用错误收集

map reduce program to count表中列中特定实体的频率

时间：2017-05-17 19:05:37

标签： java scala hadoop mapreduce word-count

我们有一个表格数据集形式的营销报告，其架构如下所示：

Link to the dataset

我们需要编写地图缩减计划，以便找出 Initial_referring 源网站的最高频率，以便找出哪个网站最有效的广告平台。< / p>

方法

删除distinct_id列中具有重复实体的行。
计算initial_referring列中每个实体的频率。
发布每个身份的频率结果。

我能够在Hive和pig中解决这个问题但是无法在MapReduce程序中获得正确的结果。

任何类似代码的参考或片段都可以提供帮助。

0 个答案:

没有答案