本地MRJobs的输入文件

时间:2013-05-31 08:50:07

标签: mrjob

我正在使用wordcount示例在笔记本电脑上学习/测试mrjobs。

我能够在命令模式下提供本地文件作为输入,但不知道如何在python脚本中执行相同的操作。

非常感谢一个简单的例子。

由于 Ananth

1 个答案:

答案 0 :(得分:0)

不太明白你在问什么,但我想你正在寻找像这样的东西

[root@localhost code]# cat mr_example.py 

from mrjob.job import MRJob

class MRWordFrequencyCount(MRJob):

    def mapper(self, _, line):
        yield "chars", len(line)
        yield "words", len(line.split())
        yield "lines", 1

    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRWordFrequencyCount.run()

[root@localhost code]# cat test_file 
aaaa
dd dx csadsad
2321 dasdtokcmk
mii xsa
xaaaa
casd

[root@localhost code]# python mr_example.py test_file
...
"chars" 50
"lines" 6
"words" 10