过滤器&在python reducer中分组

时间:2016-10-04 21:15:37

标签: python mapreduce

Python及其新手map reduce ...

我有一个mapper,它从两个表生成行(按user_id排序)

Table_1             Table_2
User_id code        User_id device
123     XYZ         123     TV
123     TRX         123     CD
954     CDF         954     TV

Mapper脚本按以下顺序生成(user_id,code,device,table_name)

使用的默认值是-1

123^-1^TV^Table_2
123^-1^CD^Table_2    
123^XYZ^-1^Table_1
123^TRX^-1^Table_1
954^-1^TV^Table_1
954^CDF^-1^Table_1

现在我希望reducer将输出作为(user_id,code,device_cnt)

设备计数=每个user_id的不同设备

123^XYZ^2
123^TRX^2
954^CDF^1

我如何在Python mapreduce中实现这一目标?

0 个答案:

没有答案