我想编写一个map-side join,并希望包含reducer代码。我有一个较小的数据集,我将作为分布式缓存发送。
我可以用reducer代码编写地图侧连接吗?
答案 0 :(得分:3)
是!!为什么不。看,reducer用于聚合从地图发出的键值。因此,只要您希望根据您在代码中设置的某些条件聚合结果(比如想要计算或查找平均值或任何数字摘要),就可以在代码中始终使用reducer。或根据问题陈述。 Map仅用于过滤数据并从大量数据中发出一些有用的键值对。当其中一个数据集小到足以适合商品机器的内存时,只需要映射侧连接。顺便说一下,减少边连接也是你的目的!!