Question

如果我有一个从多个csv文件读取并生成键值对的map.py文件，如何将这些文件传递给我的reducer.py并在本地测试？

Answer 1

如果您正在使用hadoop流媒体，那么您可以在本地测试您的脚本：

cat *.csv | map.py | sort -k1,1 | reducer.py

要将数据从mapper传递到hadoop-streaming中的reducer，只需将"<key>\t<value>"写入stdout