我是hadoop和python的新手,我试图在文本中找到10个最常用的单词。我有一个格式如下的文件
Count1 Word1
Count2 Word2
我要做的是按降序对计数进行排序,然后我的reducer将输出前10行。我的映射器没有做任何事情,使用此选项对数据进行排序
-jobconf mapreduce.partition.keycomparator.options=-k1,1nr
这是我的reducer代码
i=0
for line in sys.stdin:
if(i==10):
break
print(line)
i+=1
我不确定为什么这不起作用。