如何使我的Hadoop python映射器工作?

时间:2015-05-02 22:39:26

标签: python hadoop

我想尝试为Hadoop MapReduce编写python mapper函数(作为一个完整的初学者)。我已经尝试了下面的代码,虽然它运行它返回“已终止 - 步骤已完成但有错误”。我使用了默认的聚合减速器功能。

import sys

keywords = ["bear", "bears"]
for line in sys.stin:
    words = line.split()
    for key in keywords:
        if key in words[1:]:
            ans = words[words.index(key)-1] 
            print("%s\t%d" % (ans, 1))

(提前致谢)

1 个答案:

答案 0 :(得分:0)

for line in sys.stin:

应该是

for line in sys.stdin:

通常,您应该在使用hadoop map-reduce运行它之前测试脚本:

cat test_file.txt | python your_mapper.py | sort | python your_reducer.py

然后你会看到AttributeError。