Question

我想尝试为Hadoop MapReduce编写python mapper函数（作为一个完整的初学者）。我已经尝试了下面的代码，虽然它运行它返回“已终止 - 步骤已完成但有错误”。我使用了默认的聚合减速器功能。

import sys

keywords = ["bear", "bears"]
for line in sys.stin:
    words = line.split()
    for key in keywords:
        if key in words[1:]:
            ans = words[words.index(key)-1] 
            print("%s\t%d" % (ans, 1))

（提前致谢）

Answer 1

for line in sys.stin:

应该是

for line in sys.stdin:

通常，您应该在使用hadoop map-reduce运行它之前测试脚本：

cat test_file.txt | python your_mapper.py | sort | python your_reducer.py

然后你会看到AttributeError。

如何使我的Hadoop python映射器工作？

1 个答案: