Hadoop:找到10个最频繁的单词

时间:2015-10-22 06:34:10

标签: python hadoop

我是hadoop和python的新手,我试图在文本中找到10个最常用的单词。我有一个格式如下的文件

Count1      Word1
Count2      Word2

我要做的是按降序对计数进行排序,然后我的reducer将输出前10行。我的映射器没有做任何事情,使用此选项对数据进行排序

-jobconf mapreduce.partition.keycomparator.options=-k1,1nr 

这是我的reducer代码

i=0

for line in sys.stdin:
    if(i==10):
            break
    print(line)
    i+=1

我不确定为什么这不起作用。

0 个答案:

没有答案